Spørgsmål:
Hvilke referencer skal citeres for at understøtte brugen af ​​30 som en stor nok prøvestørrelse?
Lan
2010-09-10 22:07:39 UTC
view on stackexchange narkive permalink

Jeg har læst / hørt mange gange, at stikprøvestørrelsen på mindst 30 enheder betragtes som "stor prøve" (normalitetsantagelser om midler holder normalt omtrent på grund af CLT, ...). Derfor genererer jeg normalt prøver på 30 enheder i mine eksperimenter. Kan du venligst give mig nogle henvisninger, som skal nævnes, når du bruger prøvestørrelse 30?

Uden henvisning til antallet af parametre, du prøver at estimere, eller tilsvarende den type model, du arbejder med, synes det ret vanskeligt at give dig et klart svar.
Accept af n = 30 som grænse for små og store prøver understøttes ikke godt af nogen statistisk teknik.
Fire svar:
Carlos Accioly
2010-09-11 00:42:17 UTC
view on stackexchange narkive permalink

Faktisk er det "magiske tal" 30 en fejlslutning. Se Jacobs Cohens dejlige papir, Ting jeg har lært (hidtil) (Am. Psych. December 1990 45 # 12, s. 1304-1312). Denne myte er hans første eksempel på, at "nogle ting, du lærer, ikke er det." pr. gruppe. ... [L] ater opdagede jeg ... at for en to-uafhængig-gruppe-gennemsnitlig sammenligning med $ n = 30 $ pr. Gruppe ved den hellige to- hale $. 05 $ niveau, sandsynligheden for, at en mellemstor effekt ville blive mærket som signifikant af ... en t test var kun $. 47 $ . Således var det omtrent en møntklap, om man ville få et signifikant resultat, selvom virkningsstørrelsen i virkeligheden var meningsfuld. ... [Min ven] endte med ikke-betydningsfulde resultater - som han fortsatte med at nedrive en vigtig gren af ​​psykoanalytisk teori.

Smuk reference - og spot på relevant. Tak skal du have.
@whuber Kan du huske hvilket papir det var?Linket er brudt nu.Måske denne http://psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf, "Ting jeg har lært (hidtil)"?Året svarer til det i URL'en til det ødelagte link.
@Amoeba Jeg gemte dette papir, da jeg læste det, så jeg kan bekræfte, hvad du fandt, er det tiltenkte.Jeg har opdateret dette svar, så det inkluderer et citat sammen med dit link.
@Carlos Accioly Jeg har opdateret det med det nye link, da det foregående blev brudt.
user1108
2010-09-10 22:44:59 UTC
view on stackexchange narkive permalink

Valget af n = 30 for en grænse mellem små og store prøver er kun en tommelfingerregel. Der er et stort antal bøger, der citerer (omkring) denne værdi, for eksempel siger Hogg og Tanis Sandsynlighed og statistisk inferens (7e) "større end 25 eller 30".

t tabeller bag på lærebøger at passe pænt på en side. Det, og de kritiske værdier (mellem Students t og Normal) er alligevel kun slukket med op til 0,25 fra df = 30 til df = uendelig. For håndberegning betyder forskellen ikke rigtig noget.

I dag er det let at beregne kritiske værdier for alle mulige ting til 15 decimaler. Derudover har vi genprøvnings- og permutationsmetoder, som vi ikke engang er begrænset til parametriske befolkningsfordelinger for.

I praksis stoler jeg aldrig på n = 30. Plot dataene . Overlej en normalfordeling, hvis du vil. Vurder visuelt, om en normal tilnærmelse er passende (og spørg om en tilnærmelse endda virkelig er nødvendig). Hvis generering af prøver til forskning og en tilnærmelse er obligatorisk, skal du generere nok af en stikprøvestørrelse for at gøre tilnærmelsen så tæt som ønsket (eller så tæt som beregningsmæssigt muligt).

Her er en side om nøjagtigt, hvor god den normale tilnærmelse af t-fordelingen er for n = 30. http://www.johndcook.com/normal_approx_to_t.html
bhm
2010-09-10 23:41:43 UTC
view on stackexchange narkive permalink

IMO, det hele afhænger af, hvad du vil bruge din prøve til. To "dumme" eksempler for at illustrere, hvad jeg mener: Hvis du har brug for at estimere et gennemsnit, er 30 observationer mere end nok. Hvis du har brug for at estimere en lineær regression med 100 forudsigere, vil 30 observationer ikke være tæt på nok.

user603
2010-09-11 00:05:05 UTC
view on stackexchange narkive permalink

For det meste vilkårlig tommelfingerregel. Denne erklæring afhænger af et antal faktorer, der skal være sandt. For eksempel om distribution af data. Hvis dataene for eksempel kommer fra en Cauchy, er selv 30 ^ 30 observationer ikke nok til at estimere middelværdien (i så fald ville selv et uendeligt antal observationer ikke være nok til at forårsage $ \ bar {\ mu} ^ {(n)} $ for at konvergere). Dette tal (30) er også forkert, hvis de værdier, du tegner, ikke er uafhængige af hinanden (igen, du kan have, at der slet ikke er nogen konvergens, uanset stikprøvestørrelse).

Mere generelt er CLT har i det væsentlige brug for to søjler til at indeholde:

  1. At de tilfældige variabler er uafhængige: at du kan ombestille dine observationer uden at miste nogen information *.
  2. At rv kommer fra en fordeling med endelige sekundære øjeblikke: hvilket betyder at de klassiske estimatorer af middelværdi og s.d. har tendens til at konvergere, når prøvestørrelsen stiger.

(Begge disse betingelser kan svækkes noget, men forskellene er stort set af teoretisk karakter)

Dit eksempel illustrerer værdien af ​​robuste statistikker. * Medianprøven * estimerer placeringsparameteren for en Cauchy-fordelingsbrønd. Man kan argumentere for, at det svageste led i at bruge en t-test med 30 prøver er t-testen, ikke de 30 prøver.
John:> "Man kan argumentere for, at det svageste led i at bruge en t-test med 30 prøver er t-testen, ikke de 30 prøver". Meget sandt, og også antagelsen om, at dataene er * iid *. Medianen er også MLE for Cauchy-fordelte tilfældige variabler (og dermed effektive), men generelt kan du have brug for mere end 30 observationer.
Ikke alle versioner af CLT er afhængige af at være identisk distribueret eller endda uafhængighed. De grundlæggende, der undervises i undergrads, gør ofte, men der er versioner, der ikke antager begge antagelser, f.eks. [Lyapunov CLT] (http://en.wikipedia.org/wiki/Central_limit_theorem#Lyapunov_CLT) antager uafhængighed, men ikke identiske fordelinger, og uafhængighedsbetingelsen kan også lempes, for eksempel [se her] (http: // da .wikipedia.org / wiki / Central_limit_teorem # CLT_under_weak_dependence). At 'omordne' ting er heller ikke det samme som uafhængighed. Nogle former for afhængighed er ikke afhængige af orden.
En prøvestørrelse 50.000 er utilstrækkelig til, at CLT fungerer godt nok til at beregne et konfidensinterval for gennemsnittet af en log-normalfordeling.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 2.0-licens, den distribueres under.
Loading...