Spørgsmål:
Skal kovariater, der ikke er statistisk signifikante, "holdes", når man opretter en model?
A.M.
2013-08-03 23:05:39 UTC
view on stackexchange narkive permalink

Jeg har flere kovariater i min beregning for en model, og ikke alle er statistisk signifikante. Skal jeg fjerne dem, der ikke er?

Dette spørgsmål diskuterer fænomenet, men svarer ikke på mit spørgsmål: Hvordan fortolkes ikke-signifikant effekt af et kovariat i ANCOVA?

Der er intet i svaret på det spørgsmål, der antyder, at ikke-signifikante kovariater tages ud, men så lige nu er jeg tilbøjelig til at tro, at de skal blive i. Før jeg selv læste det svar, tænkte jeg det samme, da et kovariat stadig kan forklare noget af variansen (og dermed hjælpe modellen) uden nødvendigvis at forklare et beløb ud over en eller anden tærskel (signifikansgrænsen, som jeg ser som ikke anvendelig for kovariater).

Der er et andet spørgsmål et eller andet sted på CV, som svaret synes at antyde, at kovariater skal holdes inde uanset betydning, men det er ikke klart på det. (Jeg vil linke til dette spørgsmål, men jeg kunne ikke spore det igen lige nu.)

Så ... Skal der holdes covariater, der ikke viser sig at være statistisk signifikante, i beregningen for model? (Jeg har redigeret dette spørgsmål for at præcisere, at covariater alligevel aldrig er i modeloutput ved beregningen.)

For at tilføje komplikationer, hvad hvis covariaterne er statistisk signifikante for nogle undergrupper af dataene (undersæt, der skal behandles separat). Jeg vil som standard ikke beholde et sådant kovariat, ellers skal der bruges forskellige modeller, eller du mangler et statistisk signifikant kovariat i et af tilfældene. Hvis du også har et svar på denne delte sag, skal du dog nævne det.

Generelt set vil jeg sige, at du skal beholde variabler, der er teoretisk vigtige, eller som har været signifikante i tidligere undersøgelser, selvom dine data ikke understøtter deres effekt. Når det er sagt, for at få et mere specifikt svar, synes jeg, at du skal tilføje et par linjer for at forklare din model og dens formål (f.eks. Identificere risikofaktorer, forudsige, ...).
Jeg vil sige, det afhænger. Test er kun indikatorer. Hvis du mener, at der skal være en lille afhængighed, så overvej at holde i modellen. Hvis du også mener, at afhængigheden ikke skal være der, skal du lade den udelades.
OK, så I siger begge, at ikke-betydning ikke * dikterer *, at et kovariat fjernes fra overvejelse, så I har begge faktisk besvaret mit spørgsmål. Jeg bør faktisk omformulere mit spørgsmål for mere tydeligt at angive, at det, jeg spørger, er, om et covariats stastistiske betydning er en * nødvendig betingelse * for at opretholde det ("Betyder ikke-betydning af et covariat, at det skal fjernes ...") , og jeg accepterer en af ​​dine kommentarer som svar.
Før jeg gør det, vil jeg dog sørge for, at jeg bruger den rigtige terminologi. Oprindeligt skrev jeg "holdt i modellen", men det syntes ikke rigtigt, fordi kovariater aldrig vises i modellen. Jeg slog mig ned med "holdt i * beregningen for modellen *" (og "fjernet fra * overvejelse *"), men er der en bedre måde at sige dette på? Hvad er det rigtige udtryk for, hvad kovariatet opbevares i eller fjernes fra?
Jeg bruger beholder / fjerner eller inkluderer / ekskluderer afhængigt af om jeg bruger proceduren for tilbagevenden eller fremad, men det betyder ikke meget for mig ...
Du bliver nødt til at validere den korrekte udførelse af sådanne udvælgelsesprocedurer. Andre har fejlet.
Fire svar:
Peter Flom
2013-08-04 00:49:43 UTC
view on stackexchange narkive permalink

Du har allerede fået flere gode svar. Der er grunde til at beholde kovariater og grunde til at droppe kovariater. Statistisk betydning bør i langt de fleste tilfælde ikke være en nøglefaktor.

  1. Kovariater kan have en så væsentlig betydning, at de skal være der.
  2. Effektstørrelsen på et covariat kan være høj, selvom det ikke er signifikant.
  3. Det covariate kan påvirke andre aspekter af modellen.
  4. Det covariate kan være en del af, hvordan din hypotese blev formuleret.

Hvis du er i en meget udforskende tilstand og er kovariatet ikke vigtigt i litteraturen og effektstørrelsen er lille og covariatet har ringe effekt på din model og covariatet var ikke i din hypotese, så kunne du sandsynligvis slette det bare for enkelhed .

En meget vigtig, men ofte forsømt situation er dækket af nr. 4 her, men jeg vil stave det ud. Ofte - faktisk normalt - skal du sammenligne dine resultater med tidligere arbejdstagere med lignende data. Hvis andre fandt bestemte kovariater, der er værd at medtage i deres modeller, skal du sammenligne dine resultater med deres, uanset om dine kovariater opnår (konventionelle) signifikansniveauer. Bemærk, at sager her kan variere fra rapporteringsmodeller, som du beslutter ikke er (især) gode, til rapporteringsmodeller, som du beslutter er gode.
Jeg lænede bestemt mod 'hold ind' (og ikke tjene meget af p-værdi for kovariater i første omgang), men dit svar udgør en meget flot tjekliste (godt ... to) for et mindretal at tage ud. Effektstørrelsen er noget, jeg ikke havde overvejet, og mens jeg overvejede hypoteser, kan jeg meget godt lide, at du inkluderede det, af grundene, som @NickCox nævnte, og simpelthen for at afskrække fiskeri.
Frank Harrell
2013-08-04 00:20:34 UTC
view on stackexchange narkive permalink

Det lange svar er "ja". Der er få grunde til at fjerne ubetydelige forudsigere, og mange grunde til ikke at gøre det. For så vidt du fortolker dem, ignorerer du $ P $ -værdien, ligesom du kan fortolke andre forudsigere: med konfidensintervaller for effekter over interessante områder af forudsigeren.

Det lange svar er "ja"! +1 og en LOL.
Hvis ikke p-værdier, hvad er andre grunde til at fjerne forudsigere?Du nævner fortolkning af konfidensintervaller, men det ser ud til, at et "interessant interval" ville være nul, hvilket betyder, at folk ville fortolke CI'er ligesom p-værdier (inklusion eller eksklusion af nul).
Hvad er grunde til at fjerne forudsigere, når dette fordrejer statistiske egenskaber?Ikke klart på dit spørgsmål og "nul".
Gala
2013-08-03 23:59:24 UTC
view on stackexchange narkive permalink

En nyttig indsigt er, at der virkelig ikke er noget specifikt ved et covariat statistisk set, se f.eks. Hjælp med at skrive kovariater til regressionsformel. I øvrigt kan det forklare, hvorfor der ikke er et kovariat -tag. Derfor er materiale her og andre steder om ikke-signifikante udtryk i en lineær model relevant, ligesom de velkendte kritikere af trinvis regression, selvom ANCOVA ikke udtrykkeligt nævnes.

Generelt set er det en dårlig idé at vælge forudsigere baseret på betydning alene. Hvis du af en eller anden grund ikke kan specificere modellen på forhånd, skal du overveje andre tilgange, men hvis du planlagde at inkludere dem i første omgang, indsamlede data i overensstemmelse hermed og ikke står over for specifikke problemer (f.eks. Kollinearitet), skal du bare beholde dem.

Hvad angår grundene til at beholde dem, synes de indvendinger, du kom med, sunde for mig. En anden grund ville være, at fjernelse af ikke-signifikante forudsigere påvirker slutninger baseret på modellen. Endnu en anden måde at se på alt dette er at spørge, hvad der ville være at vinde ved at fjerne disse kovariater efter det faktum.

Randy Cragun
2018-09-14 00:52:13 UTC
view on stackexchange narkive permalink

Vi har virkelig brug for flere oplysninger om dine mål for at besvare dette spørgsmål.Regressioner bruges til to hovedformål:

  1. Forudsigelse
  2. Slutning

Forudsigelse er, når dit mål er at være i stand til at gætte på værdierne for resultatvariablen for observationer, der ikke er i stikprøven (selvom de normalt ligger inden for rækkevidden af stikprøvedataene - ellers bruger vi undertiden ordet "forudsigelse").Forudsigelse er nyttig til reklameformål, finansiering osv. Hvis du bare er interesseret i at forudsige en eller anden resultatvariabel, har jeg ikke meget at tilbyde dig.

Slutning er hvor det sjove er (selvom det ikke er hvor pengene er). Inferens er hvor du prøver at drage konklusioner om specifikke modelparametre - normalt for at bestemme en årsagseffekt af en variabel på en anden. På trods af almindelig opfattelse er regressionsanalyse aldrig tilstrækkelig til kausal inferens. Du skal altid vide mere om datagenereringsprocessen for at vide, om din regression fanger årsagseffekten. Nøgleproblemet for kausal inferens fra regressioner er, om det betingede gennemsnit af fejlen (betinget af regressorerne) er nul. Dette kan ikke kendes fra p-værdier på regressorer. Det er muligt at have regressionsestimatorer, der er upartiske eller konsistente, men det kræver langt mere indsats end bare at kaste nogle åbenlyse kontroller i regressionen og håbe, at du har de vigtige. Den bedste dækning, jeg har set af at nærme mig årsagssammenhæng med observationsdata, er i to bøger af Angrist og Pischke ( Mastering 'Metrics: The Path from Cause to Effect og Mostly Harmless Econometrics ). Mastering Metrics er lettere at læse og er ret billig, men vær advaret om, at det ikke er en behandling af, hvordan man gør regressioner, men snarere hvad de betyder. For en god dækning af eksempler på gode og dårlige observationsforskningsdesign anbefaler jeg David Freedmans (1991) "Statistiske modeller og skolæder", Sociologisk metode , bind 21 (en kort og letlæst med fascinerende eksempler ).

Bortset fra: besættelse af statistisk teknik over godt forskningsdesign i de fleste universitetsuddannelser er en pædagogisk opgave for mig.

For det andet for at motivere den aktuelle betydning af dette spørgsmål: forskellen mellem forudsigelse og slutning er, hvorfor big data ikke er en erstatning for videnskab.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...