Spørgsmål:
Standardfejl for gennemsnittet af en prøve af binomiale tilfældige variabler
Frank
2012-06-01 21:18:25 UTC
view on stackexchange narkive permalink

Antag, at jeg kører et eksperiment, der kan have to resultater, og jeg antager, at den underliggende "sande" fordeling af de 2 resultater er en binomialfordeling med parametrene $ n $ og $ p $: $ {\ rm Binomial} (n, p) $.

Jeg kan beregne standardfejlen, $ SE_X = \ frac {\ sigma_X} {\ sqrt {n}} $, fra formen af ​​variansen af ​​$ {\ rm Binomial} (n, p) $: $$ \ sigma ^ {2} _ {X} = npq $$ hvor $ q = 1-p $. Så $ \ sigma_X = \ sqrt {npq} $. For standardfejlen får jeg: $ SE_X = \ sqrt {pq} $, men jeg har set et eller andet sted, at $ SE_X = \ sqrt {\ frac {pq} {n}} $. Hvad gjorde jeg forkert?

Denne artikel er meget nyttig til at forstå standardfejlen for det gennemsnitlige http://influentialpoints.com/Training/standard_error_of_the_mean-principles-properties-assumptions.htm
Fra min googling ser det ud til, at det nært beslægtede emne om at få tillidsintervaller til en binomialfordeling er temmelig nuanceret og kompliceret.Især ser det ud til, at tillidsintervaller opnået fra denne formel, som ville være "Wald Intervals" (se https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval), er ret dårligt opført og bør undgås.Se https://www.jstor.org/stable/2676784?seq=1#metadata_info_tab_contents for mere info.
Fire svar:
Macro
2012-06-01 21:34:37 UTC
view on stackexchange narkive permalink

Det ser ud til, at du bruger $ n $ to gange på to forskellige måder - både som stikprøvestørrelse og som antallet af bernoulli-forsøg, der omfatter den binomiale tilfældige variabel; for at eliminere enhver tvetydighed skal jeg bruge $ k $ til at henvise til sidstnævnte.

Hvis du har $ n $ uafhængige prøver fra en $ {\ rm Binomial} (k, p) $ distribution, er variansen af ​​deres prøve gennemsnit

$$ {\ rm var} \ left (\ frac {1} {n} \ sum_ {i = 1} ^ {n} X_ {i} \ right) = \ frac {1} {n ^ 2} \ sum_ {i = 1} ^ {n} {\ rm var} (X_ {i}) = \ frac {n {\ rm var} (X_ {i})} {n ^ 2} = \ frac {{\ rm var} (X_ {i})} {n} = \ frac {k pq} {n} $$

hvor $ q = 1-p $ og $ \ overline {X} $ er den samme betyde. Dette følger, da

(1) $ {\ rm var} (cX) = c ^ 2 {\ rm var} (X) $, for enhver tilfældig variabel, $ X $ og enhver konstant $ c $.

(2) variansen af ​​en sum af uafhængige tilfældige variabler er lig med summen af ​​afvigelser.

Standardfejlen på $ \ overline {X} $ er kvadratroden af ​​variansen: $ \ sqrt {\ frac {k pq} {n}} $. Derfor

  • Når $ k = n $, får du den formel, du påpegede: $ \ sqrt {pq} $

  • Når $ k = 1 $, og binomialvariablerne bare er bernoulli-forsøg, får du den formel, du har set andre steder: $ \ sqrt {\ frac {pq} {n}} $

OK, meget godt. Nu forstår jeg ikke, hvorfor vi siger, at Binomialets varians er $ npq $. Jeg mangler tydeligt noget mellem Binomialets varians og variansen af ​​prøven? - Faktisk: $ Var (X) = pq $ når $ X $ er Binomial (n, p) (din afledning ser ud til at sige det) ??
Når $ X $ er en _bernoulli_ tilfældig variabel, så er $ {\ rm var} (X) = pq $. Når $ X $ har en binomial tilfældig variabel baseret på $ n $ forsøg med succes sandsynlighed $ p $, så er $ {\ rm var} (X) = npq $
@Frank, Jeg har også redigeret mit svar, siden du kommenterede - jeg tror, ​​at dette svar er mere i retning af det, du spurgte.
Tak! Du løftede min forvirring. Undskyld, at det var så elementært, jeg lærer stadig :-)
Så er det klart for Frank, at vi bruger det faktum, at for enhver konstant c Var (cX) = c $ ^ 2 $ Var (x)? Da prøveestimatet for andelen er X / n, har vi Var (X / n) = Var (X) / n $ ^ 2 $ = npq / n $ ^ 2 $ = pq / n og SEx er kvadratroden af ​​det . Jeg synes, det er tydeligere for alle, hvis vi stave alle trin.
@MichaelChernick, Jeg har afklaret de detaljer, du nævnte. Baseret på problembeskrivelsen regnede jeg med, at Frank kendte disse fakta, men du har ret i, at det ville være mere lærerigt for fremtidige læsere at inkludere detaljerne.
@Macro: ked af det naive spørgsmål, men jeg læste dit svar, og jeg prøver at forstå det bedre. Jeg er stadig ikke klar over forskellen mellem _k_ (antallet af bernoulli-forsøg) og _n_ (stikprøvestørrelsen)? Når du laver et eksperiment, hvor hvert forsøg kan have et resultat på 1 eller 0, svarer ikke din stikprøvestørrelse til antallet af bernoulli-forsøg? I hvilke tilfælde er de ikke de samme? F.eks .: hvis jeg kaster en mønt 50 gange, og jeg vil beregne andelen af ​​hoveder i mit eksperiment, er n = k = 50 ikke?
Sol Lago - i dette tilfælde k = 1. Hvis du har vendt en mønt 50 gange og beregnet antallet af succeser og derefter gentaget eksperimentet 50 gange, så er k = n = 50. En flip af en mønt resulterer i en 1 eller 0. Det er en Bernoulli r.v.
Tak skal du have!Min lærebog bruger fortsat n til begge disse ting, og det forvirrede mig så meget!
@B_Miner, kan du takke det igen? En binomial rv bestående af et antal succeser i en Bernoulli-proces (f.eks. Antallet af Bernoulli-forsøg).Antag, at vi kaster en mønt 5 gange.Hvis k (et antal Bernoulli-forsøg) er lig med 1 i dette tilfælde, betyder det, at hver binomial rv er en Bernoulli rv.Hvis vi derefter beregner antallet af succeser og derefter gentager møntkastprocessen 4 gange mere (5 kast pr. Proces), så får vi i alt 5 iterationer. Hvordan ville det adskille sig fra et tilfælde, når vi kaster 5 mønter på samme tid og derefter gentager det 4 gange mere?
Vlad
2015-11-15 23:52:48 UTC
view on stackexchange narkive permalink

Det er nemt at forveksle to binomiale fordelinger:

  • fordeling af antal succeser
  • fordeling af andelen af ​​succeser

npq er antallet af succeser, mens npq / n = pq er forholdet mellem succeser. Dette resulterer i forskellige standardfejlformler.

Tarashankar
2016-06-29 01:21:16 UTC
view on stackexchange narkive permalink

Vi kan se på dette på følgende måde:

Antag, at vi laver et eksperiment, hvor vi har brug for at kaste en upartisk mønt $ n $ gange. Det samlede resultat af eksperimentet er $ Y $, som er summen af ​​individuelle kast (f.eks. Hoved som 1 og hale som 0). Så for dette eksperiment, $ Y = \ sum_ {i = 1} ^ n X_i $, hvor $ X_i $ er resultatet af individuelle kast.

Her er resultatet af hver kast, $ X_i $, følger en Bernoulli-fordeling, og det samlede resultat $ Y $ følger en binomialfordeling.

Det komplette eksperiment kan betragtes som en enkelt prøve. Således, hvis vi gentager eksperimentet, kan vi få en anden værdi på $ Y $, som vil danne en anden prøve. Alle mulige værdier på $ Y $ udgør den samlede population.

Når vi vender tilbage til den enkelte møntkast, der følger en Bernoulli-fordeling, gives variansen med $ pq $, hvor $ p $ er sandsynligheden af hoved (succes) og $ q = 1 - p $.

Hvis vi ser på variationen på $ Y $, er $ V (Y) = V (\ sum X_i) = \ sum V (X_i) $. Men for alle individuelle Bernoulli-eksperimenter er $ V (X_i) = pq $. Da der er $ n $ kast eller Bernoulli forsøg i eksperimentet, $ V (Y) = \ sum V (X_i) = npq $. Dette indebærer, at $ Y $ har varians $ npq $.

Nu er prøveandelen givet af $ \ hat p = \ frac Y n $, hvilket giver 'andelen af ​​succes eller hoveder'. Her er $ n $ en konstant, da vi planlægger at tage det samme antal møntkast til alle eksperimenterne i befolkningen.

Så, $ V (\ frac Y n) = (\ frac {1} {n ^ 2}) V (Y) = (\ frac {1} {n ^ 2}) (npq) = pq / n $.

Så standardfejl for $ \ hat p $ ( en eksempelstatistik) er $ \ sqrt {pq / n} $

Du kan bruge Latex-sæt ved at lægge dollars rundt i din matematik, f.eks.`$ x $` giver $ x $.
Bemærk, at trin $ V (\ sum X_i) = \ sum V (X_i) $ virkelig fortjener en begrundelse!
Der er skrivefejl i det sidste fradrag, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n skal være det rigtige fradrag.
Undskyld, jeg introducerede det, når jeg lavede sætningen.Forhåbentlig sorteret nu.
Tak, værdsætter oprigtigt.Bare til din anden anmodning oversættes formlen til denne V (X1 + X2 + ... + Xn) = V (X1) + V (X2) + ... + V (Xn), som er en egenskab for variansfunktionen.Hilsen og tak, Tarashankar
Det er sandt, hvis $ X_i $ ikke er korreleret - for at retfærdiggøre dette bruger vi det faktum, at forsøgene antages at være uafhængige.
Stan
2015-11-17 19:48:27 UTC
view on stackexchange narkive permalink

Jeg tror, ​​der er også en vis forvirring i det første indlæg mellem standardfejl og standardafvigelse. Standardafvigelse er kvadratet af variansen for en distribution; standardfejl er standardafvigelsen for det estimerede gennemsnit af en prøve fra denne fordeling, dvs. spredningen af ​​de midler, du ville observere, hvis du gjorde den prøve uendeligt mange gange. Førstnævnte er en iboende egenskab ved fordelingen; sidstnævnte er et mål for kvaliteten af ​​dit skøn over en ejendom (middelværdien) af distributionen. Når du udfører et eksperiment med N Bernouilli-forsøg for at estimere den ukendte sandsynlighed for succes, er usikkerheden ved din estimerede p = k / N efter at have set k-succeser en standardfejl i den estimerede andel, sqrt (pq / N) hvor q = 1 -p. Den sande fordeling er kendetegnet ved en parameter P, den sande sandsynlighed for succes. Hvis du lavede et uendeligt antal eksperimenter med N-forsøg hver og så på fordelingen af ​​succeser, ville det have betyde K = P * N, varians NPQ og standardafvigelse sqrt (NPQ).



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...