Spørgsmål:
Hvilken er nulhypotesen? Konflikt mellem videnskabsteori, logik og statistik?
vonjd
2011-08-03 15:22:33 UTC
view on stackexchange narkive permalink

Jeg har svært ved at forstå den underliggende logik med at indstille nulhypotesen. I dette svar angives det åbenlyst almindeligt accepterede forslag, at nulhypotesen er hypotesen om, at der ikke vil være nogen effekt, alt forbliver det samme, dvs. intet nyt under solen, for at sige det.

Den alternative hypotese er så, hvad du prøver at bevise, at f.eks et nyt lægemiddel lever op til sine løfter.

Nu kommer vi fra videnskabsteori og generel logik, vi ved, at vi kun kan forfalske forslag, vi kan ikke bevise noget (intet antal hvide svaner kan bevise, at alle svaner er hvide, men en sort svane kan modbevise det). Dette er grunden til, at vi prøver at modbevise nulhypotesen, som ikke svarer til at bevise den alternative hypotese - og det er her min skepsis begynder - jeg vil give et let eksempel:

Lad os sige, at jeg vil finde ud af hvilken slags dyr er der bag et gardin. Desværre kan jeg ikke direkte observere dyret, men jeg har en test, der giver mig antallet af ben på dette dyr. Nu har jeg følgende logiske ræsonnement:

Hvis dyret er en hund, vil det have 4 ben.

Hvis jeg udfører testen og finder ud af at det har 4 ben er dette intet bevis på at det er en hund (det kan være en hest, en næsehorn eller ethvert andet firbenet dyr). Men hvis jeg finder ud af, at den har ikke 4 ben, er dette et klart bevis på, at det ikke kan være en hund (forudsat et sundt dyr).

Oversat til lægemiddeleffektivitet Jeg vil gerne finde ud af, om stoffet bag gardinet er effektivt. Det eneste, jeg får, er et tal, der giver mig effekten. Hvis effekten er positiv, bevises intet (4 ben). Hvis der ikke er nogen effekt, afviser jeg lægemidlets effektivitet.

Når jeg siger alt dette, tror jeg - i modsætning til almindelig visdom - den eneste gyldige nulhypotese skal være

lægemiddel er effektivt (dvs. hvis lægemidlet er effektivt, vil du se en effekt).

fordi dette er det eneste, jeg kan afvise - op til næste runde, hvor jeg prøver at være mere specifik og så videre. Så det er nulhypotesen, der angiver effekten, og den alternative hypotese er standard ( ingen effekt ).

Hvorfor er det, at statistiske tests ser ud til at have den bagud ?

PS : Du kan ikke engang afvise ovenstående hypotese for at få en gyldig ækvivalent hypotese, så du kan ikke sige "Lægemidlet er ikke effektiv "som en nulhypotese, fordi den eneste logisk ækvivalente form ville være" hvis du ser ingen effekt, vil lægemidlet ikke være effektivt "hvilket bringer dig ingen steder, for nu er konklusionen, hvad du vil finde ud af!

PPS : Bare til afklaring efter at have læst svarene hidtil: Hvis du accepterer videnskabelig teori, kan du kun forfalske udsagn, men ikke bevise dem, det eneste der er logisk konsekvent er at vælge nulhypotesen som den nye teori - som derefter kan forfalskes. For hvis du forfalsker status quo, er du tomhændet (status quo er modbevist, men den nye teori er langt fra bevist!). Og hvis du undlader at forfalske det, er du heller ikke bedre.

Tip: "Lægemidlet er effektivt" er ikke kvantificeret tilstrækkeligt til at være en videnskabelig eller en statistisk erklæring. * Hvordan vil du gøre det kvantitativt? *
@whuber: Dette er det mindste af mine problemer: Bare sig, at f.eks. blodpræsen reduceres med 10%. Jeg hævder, at dette skal være nulhypotesen - den alternative hypotese er "Intet sker".
Tværtimod er dette spørgsmålet * kernen *. Det er helt fint i statistikker at stille et null, der siger, at effekten er -10%. Dit eksperiment vil være i stand til at afvise det, hvis det giver stærk nok bevis for det modsatte. Bemærk dog, at (undtagen ekstraordinære beregnings- og konceptuelle bearbejdninger) du kun kan teste en enkelt sådan hypotese pr. Eksperiment. Bemærk også, at det er den sjældne eksperimentator, der ved så præcist, hvad effektstørrelsen vil være (men stadig føler et behov for at teste det!).
@whuber: Jeg forstår dit punkt. For at tænde det på hovedet skal du have de samme vanskeligheder med at oprette den alternative hypotese. Så hvad du gør i de fleste tilfælde: Angiv bare, at begge prøver er forskellige. Ifølge den videnskabelige logik vil jeg bede om at afvige og sige: Nul hypotese: De er forskellige. Alternativ hypotese: De er de samme. - se min P.P.S. ovenfor også.
Desværre, når du vender hypotesernes rolle på denne måde, er de uprøvede: "forskellige" omfatter for mange muligheder (undtagen i lærebogsager, hvor der kun overvejes en mulig effektstørrelse). Det er ikke videnskabeligt.
@whuber: Så fortæl mig, hvordan * du * ville kvantificere den alternative hypotese (eller hvordan dette gøres i praksis) - og hvorfor det derfor ikke er muligt at bytte begge.
I praksis med narkotikaforsøg fortolkes nullet normalt som "lægemidlet er ikke mere effektivt end den nuværende behandling", og alternativet er "lægemidlet er mere effektivt end den nuværende behandling." Det har i øvrigt en indbygget effektstørrelse. Med denne formulering kan bevis * for * lægemidlets virkning afvise nul. Efter bytte af hypoteserne afskrækker bevis for effektiviteten kun en fra at afvise påstanden om, at stoffet er godt. I det første tilfælde er bevisbyrden langt strengere.
@vonjd: Du siger, "hvis du forfalsker status quo, er du tomhændet". Forkert. Hvis vi foretog kvalitative vurderinger "hund" / "ikke hund", er det rigtigt, at det at levere bevis "ikke hund" ikke er særlig stærkt bevis for "hund". Dette er dog værdien af ​​at kvantificere ting. Hvis jeg fremlægger bevis for "ikke 0", giver det god dokumentation for, at værdien er noget andet end 0. Hvis du er bekymret, der giver lige så god dokumentation for en god effekt og en dårlig effekt, skal du bruge en ensidig test.
Ti svar:
Gavin Simpson
2011-08-03 15:59:58 UTC
view on stackexchange narkive permalink

I statistikken er der test af ækvivalens såvel som den mere almindelige test Null og beslutter, om der er tilstrækkelig dokumentation mod den. Ækvivalensprøven vender dette på hovedet og antyder, at effekterne er forskellige som Null, og vi bestemmer, om der er tilstrækkelig dokumentation mod denne Null.

Jeg er ikke klar over dit stofeksempel. Hvis svaret er en værdi / indikator for effekten, vil en effekt på 0 indikere, at den ikke er effektiv. Man ville angive det som Null og evaluere beviset imod dette. Hvis effekten er tilstrækkelig forskellig fra nul, vil vi konkludere, at hypotesen om ikke-effektivitet er uforenelig med dataene. En to-haletest ville tælle tilstrækkeligt negative virkningsværdier som bevis mod Null. En en-tailed test, effekten er positiv og tilstrækkeligt forskellig fra nul, kan være en mere interessant test.

Hvis du vil teste, om effekten er 0, så ' d har brug for at vende dette rundt og bruge en ækvivalens test, hvor H0 er, at effekten ikke er lig med nul, og alternativet er, at H1 = effekten = 0. Det ville evaluere beviset mod ideen om, at effekten var forskellig fra 0.

En del af problemet her er, at, IIRC, årsagen til, at vi vælger no-effect som Null, er fordi parameteren for den effekt er kendt, at den er `0`. Hvis du vil vende dette rundt og have en effekt, der ikke er nul som Null, skal vi på forhånd vide, hvad værdien af ​​denne parameter var for hele befolkningen, og hvis vi kendte værdien af ​​parameteren for befolkning ville der ikke være nogen mening i at teste.
Nå ser det ud til, at vi vil have det samme problem med den alternative hypotese (vi kender heller ikke parameteren der). Så mit spørgsmål er: Hvorfor ikke bytte begge dele? Dette virker logisk mere konsekvent.
Jeg vil lade andre kommentere ækvivalensprøver. De er ikke det samme som bare at bytte hypoteserne i standardtest, men jeg er ikke så fortrolig med disse ideer. Jeg tror ikke, du har ret i, at ækvivalensprøverne lider under det problem, jeg nævner i kommentarerne. De er formuleret ud fra et meget andet teoretisk synspunkt.
Dikran Marsupial
2011-11-21 21:57:45 UTC
view on stackexchange narkive permalink

Jeg tror, ​​det er et andet tilfælde, hvor hyppighed statistikker ikke kan give et direkte svar på det spørgsmål, du rent faktisk vil stille, og derfor besvarer et (nej så) subtilt andet spørgsmål, og det er let at fortolke dette som en direkte svar på det spørgsmål, du faktisk ville stille.

Hvad vi virkelig gerne vil stille er normalt, hvad der er sandsynligheden for, at den alternative hypotese er sand (eller måske hvor meget mere sandsynligt, at den er sand, end den nulhypotesen). Imidlertid kan en hyppig analyse ikke grundlæggende besvare dette spørgsmål, for en hyppighed er sandsynligheden en langsigtet frekvens, og i dette tilfælde er vi interesseret i sandheden af ​​en bestemt hypotese, som ikke har en langvarig frekvens - det er enten sandt, eller det er det ikke. En Bayesian derimod kan besvare dette spørgsmål direkte, for en Bayesian er en sandsynlighed et mål for sandsynligheden for en eller anden proposition, så det er i en Bayesisk analyse helt rimeligt at tildele sandsynligheden for sandheden om en bestemt hypotese.

Den måde, som hyppige behandler specielle begivenheder på, er at behandle dem som en prøve fra en eller anden (muligvis fiktiv) befolkning og afgive en erklæring om denne befolkning i stedet for en erklæring om den bestemte prøve . For eksempel, hvis du vil vide sandsynligheden for, at en bestemt mønt er forudindtaget, efter at have observeret N-flip og observeret h hoveder og t haler, kan en hyppig analyse ikke besvare dette spørgsmål, men de kunne fortælle dig andelen af ​​mønter fra en fordeling af upartiske mønter, der giver h eller flere hoveder, når de vendes N gange. Da den naturlige definition af en sandsynlighed, som vi bruger i hverdagen, generelt er en Bayesisk, snarere end en hyppig, er det alt for let at behandle dette, da det er sandheden, at nulhypotesen (mønten er upartisk) er sand. / p>

I det væsentlige hyppige hypotesetest har en implicit subjektivistisk Bayesisk komponent, der lurer i hjertet. Hyppighedstesten kan fortælle dig sandsynligheden for at observere en statistik, der er mindst lige så ekstrem under nulhypotesen, men beslutningen om at afvise nulhypotesen af ​​disse grunde er fuldstændig subjektiv, der er ikke noget rationelt krav for dig at gøre det. Essentiel erfaring har vist, at vi generelt er på rimelig solid grund til at afvise nul, hvis p-værdien er tilstrækkelig lille (igen er tærsklen subjektiv), så det er traditionen. AFAICS, det passer ikke godt ind i videnskabens filosofi eller teori, det er i det væsentlige en heuristisk.

Det betyder dog ikke, at det er en dårlig ting, på trods af dets mangler giver hyppig hypotestest en forhindring, der vores forskning skal komme over, hvilket hjælper os som forskere med at bevare vores selvskepsis og ikke blive båret af begejstring for vores teorier. Så mens jeg er en Bayesian i hjertet, bruger jeg stadig hyppige hypotesetests regelmæssigt (i det mindste indtil journalanmeldere er fortrolige med Bayesain-alternativerne).

ImAlsoGreg
2011-08-03 18:34:51 UTC
view on stackexchange narkive permalink

For at tilføje til Gavins svar et par ting:

Først har jeg hørt denne idé om, at forslag kun kan forfalskes, men aldrig bevises. Kan du sende et link til en diskussion af dette, for med vores ordlyd her ser det ikke ud til at holde meget godt - hvis X er et forslag, så er ikke (X) også et forslag. Hvis afvisning af forslag er mulig, så er afvisning af X det samme som at bevise ikke (X), og vi har bevist et forslag.

For det andet er din analogi mellem P (effektiv | $ test _ + $) og P (hund | 4 ben) er interessant. Ordlyden skal dog ændres en smule:

Lægemidlet er effektivt (dvs.: iff stoffet er effektivt, du vil se en virkning).

Faktisk er P (effektiv | $ test _ + $) ofte større end P ($ test _ + $ | effektiv), så længe du bruger hypotesetest og den rigtige statistisk model. Hypotesetest formaliserer usandsynligheden for positive testresultater under $ H_0 $. Men et effektivt lægemiddel garanterer ikke en positiv test; når lægemidlet er effektivt, og variansen er høj, kan effekten maskeres i testen.

Hvis du observerer $ test _ + $, kan du udlede effektivitet, fordi alternativet er $ H_0 $, og hypotesetesten er indstillet således, at P ($ test _ + $ | $ H_0 $) < 0,05.

Så forskellen mellem hundesagen og effektivitetssagen ligger i hensigtsmæssigheden af ​​slutningen fra bevismateriale til konklusion. I hundesagen har du observeret nogle beviser, der ikke stærkt antyder en hund. Men i det kliniske forsøgssag har du observeret nogle beviser, der stærkt indebærer effekt.

Tak skal du have. Hvis du accepterer, at du kun kan forfalske udsagn, men ikke bevise dem (link på et sekund), er det eneste, der er logisk konsekvent, at vælge nulhypotesen som den nye teori - som derefter kan forfalskes. Hvis du forfalsker status quo, er du tomhændet (status quo er afvist, men den nye teori er langt fra bevist!). Nu for linket synes jeg et godt udgangspunkt ville være: http://en.wikipedia.org/wiki/Falsifiability
Jeg tror, ​​at et punkt at nævne her er, at du ikke beviser eller afviser nulhypotesen. Den beslutning, du tager (klassisk), er at bevare eller afvise nulhypotesen. Når du afviser nulhypotesen, afviser du den ikke. Alt hvad du laver er at sige, at nulhypotesen er usandsynlig i betragtning af de observerede data.
@drknexus: Nå, ville du ikke være enig i, at dette er den sandsynlige ækvivalent af forfalskning i logik?
@drknexus Ville det ikke være mere præcist at ikke sige "givet de observerede data, er nulhypotesen usandsynlig", men snarere "hvis nulhypotesen er sand, er disse data usandsynlig"? Er sammenlægning af disse to ikke den klassiske fejl i statistisk hypotesetest?
MM: Du har ret. Jeg blev sjusket i min ordlyd.
Michael McGowan
2011-08-03 19:46:32 UTC
view on stackexchange narkive permalink

Du har ret i, at hyppighedstestning i en vis forstand har den bagud. Jeg siger ikke, at denne tilgang er forkert, men snarere at resultaterne ofte ikke er designet til at besvare de spørgsmål, som forskeren er mest interesseret i. Hvis du vil have en teknik, der mere ligner den videnskabelige metode, så prøv Bayesian slutning.

I stedet for at tale om en "nulhypotese", som du kan afvise eller undlade at afvise, med Bayesian slutning begynder du med en forudgående sandsynlighedsfordeling baseret på din forståelse af den aktuelle situation. Når du erhverver nye beviser, giver Bayesian-slutningen en ramme for dig til at opdatere din tro med de beviser, der tages i betragtning. Jeg tror, ​​det er sådan, der ligner mere, hvordan videnskab fungerer.

Peter Flom
2011-08-04 00:30:53 UTC
view on stackexchange narkive permalink

Jeg tror, ​​du har en grundlæggende fejl her (ikke at hele området med hypotesetestning er klart!), men du siger, at alternativet er det, vi prøver at bevise. Men dette er ikke rigtigt. Vi forsøger at afvise (falske) nul. Hvis de resultater, vi opnår, ville være meget usandsynlige, hvis nullet var sandt, afviser vi nullet.

Nu, som andre sagde, er det normalt ikke det spørgsmål, vi vil stille: Vi er ligeglad hvor sandsynlige resultaterne er, hvis nul er sandt, er vi ligeglade med, hvor sandsynlige nul er givet resultaterne.

Doc
2012-08-18 00:17:19 UTC
view on stackexchange narkive permalink

Hvis jeg forstår dig korrekt, er du enig med den afdøde, store Paul Meehl. Se

Meehl, P.E. (1967). Teoriprøvning i psykologi og fysik: Et metodologisk paradoks. Videnskabsfilosofi , 34 : 103-115.

Har du noget imod at udvikle dette svar lidt?
Linket er dødt :-(
Link korrigeret.
Flask
2013-12-12 22:55:50 UTC
view on stackexchange narkive permalink

Jeg vil udvide omtalen af ​​Paul Meehl af @Doc:

1) At teste det modsatte af din forskningshypotese, da nulhypotesen gør det, så du kun kan bekræfte den konsekvens, der er en " formelt ugyldigt "argument. Konklusionerne følger ikke nødvendigvis af forudsætningen.

  Hvis Bill Gates ejer Fort Knox, så er han rig. Bill Gates er rig. Derfor ejer Bill Gates Fort Knox.  kode> 

http://rationalwiki.org/wiki/Affirming_the_consequent

Hvis teorien er "Dette lægemiddel forbedrer opsvinget" og du observerer forbedret opsving, det betyder ikke, at du kan sige, at din teori er sand. Udseendet af forbedret opsving kunne have fundet sted af en anden grund. Ingen to grupper af patienter eller dyr vil være nøjagtigt ens ved baseline og vil ændre sig yderligere over tid under undersøgelsen. Dette er et større problem for observationel end eksperimentel forskning, fordi randomisering "forsvarer" sig mod alvorlige ubalancer af ukendte forvirrende faktorer ved baseline. Imidlertid løser randomisering ikke rigtig problemet. Hvis forvirringerne er ukendte, har vi ingen måde at fortælle, i hvilket omfang "randomiseringsforsvaret" har været vellykket.

Se også tabel 14.1 og diskussionen om, hvorfor ingen teori kan testes alene (der er altid hjælpefaktorer, der mærker sammen) i:

Paul Meehl. "Problemet er epistemologi, ikke statistik: Udskift signifikansprøver med tillidsintervaller og kvantificer nøjagtigheden af ​​risikable numeriske forudsigelser" I LL Harlow, SA Mulaik, & JH Steiger (red.), Hvad hvis der ikke var nogen Betydningstest? (s. 393-425) Mahwah, NJ: Erlbaum, 1997.

2) Hvis der indføres en form for bias (fx ubalance på nogle forvirrende faktorer) ved vi ikke, hvilken retning denne bias vil ligge, eller hvor stærk den er. Det bedste gæt, vi kan give, er, at der er 50% chance for at påvirke behandlingsgruppen i retning af højere helbredelse. Da stikprøvestørrelser bliver store, er der også 50% chance for, at din signifikansstest opdager denne forskel, og du vil fortolke dataene som en bekræftelse af din teori.

Denne situation er helt forskellig fra tilfældet med en nulhypotese om, at "Dette lægemiddel forbedrer genopretningen med x%". I dette tilfælde gør tilstedeværelsen af ​​enhver bias (som jeg vil sige altid eksisterer ved sammenligning af grupper af dyr og mennesker) det mere sandsynligt for dig at afvise din teori.

Tænk på "rummet" (Meehl kalder det "Spielraum") af mulige resultater afgrænset af de mest ekstreme målinger. Måske kan der være 0-100% opsving, og du kan måle med en opløsning på 1%. I den almindelige betydningstesttilfælde vil rummet, der er i overensstemmelse med din teori, være 99% af de mulige resultater, du kunne observere. I det tilfælde, hvor du forudsiger en specifik forskel, vil rummet, der er i overensstemmelse med din teori, være 1% af de mulige resultater.

En anden måde at udtrykke det på er at finde beviser mod en nulhypotese af middel1 = middel2 er ikke en alvorlig test af forskningshypotesen om, at et lægemiddel gør noget. En null af middelværdi1 < middelværdi2 er bedre, men stadig ikke særlig god.

Se figur 3 og 4 her: (1990). Vurdering og ændring af teorier: Strategien for Lakatosiansk forsvar og to principper, der berettiger til brug. Psykologisk undersøgelse, 1, 108-141, 173-180

John Faupel
2016-08-16 13:09:20 UTC
view on stackexchange narkive permalink

Er ikke al statistik baseret på den antagelse, at intet er sikkert i den naturlige verden (adskilt fra den menneskeskabte verden af ​​spil &c). Med andre ord er den eneste måde, vi kan komme tæt på at forstå det ved at måle sandsynligheden for, at en ting korrelerer med en anden, og dette varierer mellem 0 og 1, men kan kun være 1, hvis vi kunne teste hypotesen et uendeligt antal gange i en uendeligt mange forskellige omstændigheder, hvilket naturligvis er umuligt. Og vi kan aldrig vide, at det var nul af samme grund. Det er en mere pålidelig tilgang til forståelse af naturens virkelighed end matematik, der handler i absolutter og for det meste er afhængige af ligninger, som vi ved er idealistiske, for hvis LH-siden af ​​en ligning virkelig er = RH-siden, de to sider kunne vendes, og vi ville ikke lære noget. Strengt taget gælder det kun for en statisk verden, ikke en 'naturlig', som er iboende turbulent. Derfor skal nulhypotesen endda garantere matematik - hver gang den bruges til at forstå naturen selv.

John Faupel
2016-08-16 14:33:05 UTC
view on stackexchange narkive permalink

Jeg tror, ​​problemet ligger i ordet 'sandt'. Den naturlige verdens virkelighed er medfødt ukendt, da den er uendeligt kompleks og uendelig variabel over tid, så 'sandhed' anvendt på naturen er altid betinget. Alt hvad vi kan gøre er at prøve at finde niveauer af sandsynlig korrespondance mellem variabler ved gentaget eksperiment. I vores forsøg på at forstå virkeligheden ser vi efter, hvad der ser ud som orden i den og konstruerer konceptuelt bevidste modeller af den i vores sind for at hjælpe os med at tage fornuftige beslutninger, MEN det er meget en hit-and-miss affære, fordi der altid er uventet. Nulhypotesen er det eneste pålidelige udgangspunkt i vores forsøg på at forstå virkeligheden.

Jeg synes, du skal flette dine to svar.
mohit khanna
2012-08-18 13:24:29 UTC
view on stackexchange narkive permalink

Vi skal vælge den nulhypotese, som vi vil afvise.

Fordi der i vores hypotesetestscenarie er en kritisk region, hvis regionen under hypotesen kommer i kritisk region, afviser vi hypotesen ellers accepterer vi hypotesen.

Så antag at vi vælger nulhypotesen, den vi vil acceptere. Og regionen under nulhypotese kommer ikke under kritisk region, så vi accepterer nulhypotesen. Men problemet her er, hvis region under nulhypotese kommer under acceptabel region, så betyder det ikke, at regionen under alternativ hypotese ikke kommer under acceptabel region. Og hvis dette er tilfældet, vil vores fortolkning af resultatet være forkert. Så vi må kun tage den hypotese som en nulhypotese, som vi vil afvise. Hvis vi er i stand til at afvise nulhypotese, betyder det, at alternativ hypotese er sand. Men hvis vi ikke er i stand til at afvise nulhypotesen, betyder det, at en af ​​de to hypoteser kan være korrekte. Måske kan vi så tage en ny test, hvor vi kan tage vores alternative hypotese som nulhypotese, og så kan vi forsøge at afvise den. Hvis vi er i stand til at afvise den alternative hypotese (som nu er nulhypotese.), Så kan vi sige, at vores oprindelige nulhypotese var sand.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...