Forskel mellem generaliserede lineære modeller og generaliserede lineære blandede modeller

Spørgsmål:

user9203

2012-07-17 04:47:32 UTC

view on stackexchange narkive permalink

Jeg undrer mig over, hvad forskellene er mellem blandede og ikke-blandede GLM'er. For eksempel giver rullemenuen i SPSS brugerne mulighed for at passe til enten:

analyse-> generaliserede lineære modeller-> generaliserede lineære modeller &
analyser-> blandede modeller-> generaliseret lineær

Behandler de manglende værdier forskelligt?

Min afhængige variabel er binær, og jeg har flere kategoriske og kontinuerlige uafhængige variabler.

Følgende CV-spørgsmål drøfter også forholdet mellem GEE & GLiMMs: [Hvad er forskellen mellem generaliserede estimeringsligninger og GLMM] (http://stats.stackexchange.com/questions/17331/); [Hvornår skal man bruge generaliserede estimeringsligninger vs. modeller med blandede effekter?] (Http://stats.stackexchange.com/questions/16390/)

Tre svar:

gung - Reinstate Monica

2012-07-17 05:11:41 UTC

view on stackexchange narkive permalink

Fremkomsten af generaliserede lineære modeller har gjort det muligt for os at oprette regressionsmodeller af data, når fordelingen af svarvariablen ikke er normal - for eksempel når din DV er binær. (Hvis du gerne vil vide lidt mere om GLiM'er, skrev jeg et ret omfattende svar her, hvilket kan være nyttigt, selvom sammenhængen er forskellig.) En GLiM, f.eks. en logistisk regressionsmodel antager, at dine data er uafhængige . Forestil dig f.eks. En undersøgelse, der ser på, om et barn har udviklet astma. Hvert barn bidrager med et datapunkt til undersøgelsen - de har enten astma eller ikke. Nogle gange er data dog ikke uafhængige. Overvej en anden undersøgelse, der undersøger, om et barn er forkølet på forskellige steder i løbet af skoleåret. I dette tilfælde bidrager hvert barn med mange datapunkter. På et tidspunkt kan et barn muligvis være forkølet, senere måske ikke, og senere senere kan det få en anden forkølelse. Disse data er ikke uafhængige, fordi de stammer fra det samme barn. For at kunne analysere disse data korrekt skal vi på en eller anden måde tage denne manglende uafhængighed i betragtning. Der er to måder: En måde er at bruge generaliserede estimeringsligninger (som du ikke nævner, så vi springer over). Den anden måde er at bruge en generaliseret lineær blandet model. GLiMM'er kan redegøre for ikke-uafhængigheden ved at tilføje tilfældige effekter (som @MichaelChernick bemærker). Således er svaret, at din anden mulighed er for ikke-normale gentagne foranstaltninger (eller på anden måde ikke-uafhængige) data. (I overensstemmelse med @ Macros kommentar skal jeg nævne, at generelle izedede lineære blandede modeller inkluderer lineære modeller som et specielt tilfælde og således kan bruges med normalt distribuerede data. Imidlertid betegner udtrykket konnoterer ikke-normale data.)

Opdatering: (OP har også spurgt om GEE, så jeg vil skrive lidt om, hvordan alle tre relaterer til hinanden .)

Her er en grundlæggende oversigt:

en typisk GLiM (jeg bruger logistisk regression som det prototypiske tilfælde) lader dig modellere et uafhængigt binært svar som en funktion af kovariater
en GLMM lader du modellerer et ikke-uafhængigt (eller grupperet) binært svar betinget af attributterne for hver enkelt klynge som en funktion af covariater
GEE giver dig modeller populationsmiddelrespons for ikke-uafhængige binære data som en funktion af kovariater

Da du har flere forsøg pr. deltager, data er ikke uafhængige som du korrekt bemærker, "[t] rials inden for en deltager er sandsynligvis mere ens end sammenlignet med hele gruppen". Derfor skal du bruge enten en GLMM eller GEE.

Så spørgsmålet er, hvordan man vælger, om GLMM eller GEE ville være mere passende for din situation. Svaret på dette spørgsmål afhænger af emnet for din forskning - specifikt målet for de slutninger, du håber at komme med. Som jeg sagde ovenfor, med en GLMM fortæller betaerne dig om effekten af en enhedsændring i dine kovariater på en bestemt deltager i betragtning af deres individuelle egenskaber. På den anden side med GEE fortæller betaerne dig om effekten af en enhedsændring i dine kovariater på gennemsnittet af svarene fra hele den pågældende befolkning. Dette er en vanskelig skelnen at forstå, især fordi der ikke er nogen sådan skelnen med lineære modeller (i hvilket tilfælde de to er de samme).

En måde at forsøge at pakke dit hoved omkring dette er at forestille sig et gennemsnit over din befolkning på begge sider af ligetegnet i din model. For eksempel kan dette være en model: $$ \ text {logit} (p_i) = \ beta_ {0} + \ beta_ {1} X_1 + b_i $$ hvor: $$ \ text {logit} (p) = \ ln \ left (\ frac {p} {1-p} \ right), ~~~~~ \ & ~~~~~~ b \ sim \ mathcal N (0, \ sigma ^ 2_b) $$ Der er en parameter, der styrer svarfordelingen ($ p $, sandsynligheden med binære data) på venstre side for hver deltager. På højre side er der koefficienter for effekten af covariatet [s] og basislinjeniveauet, når covariatet [s] er lig med 0. Den første ting at bemærke er, at den faktiske skæring for et bestemt individ er ikke $ \ beta_0 $, men snarere $ (\ beta_0 + b_i) $. Men hvad så? Hvis vi antager, at $ b_i $ 'erne (den tilfældige effekt) normalt er fordelt med et gennemsnit på 0 (som vi har gjort), kan vi bestemt gennemsnitligt over disse uden problemer (det ville bare være $ \ beta_0 $) . Desuden har vi i dette tilfælde ikke en tilsvarende tilfældig effekt for pisterne, og deres gennemsnit er således kun $ \ beta_1 $. Så gennemsnittet af aflytningerne plus gennemsnittet af skråningerne skal være lig med logit-transformation af gennemsnittet af $ p_i $'erne til venstre, ikke sandt? Desværre nej . Problemet er, at der mellem disse to er $ \ text {logit} $, som er en ikke-lineær transformation. (Hvis transformationen var lineær, ville de være ækvivalente, hvorfor dette problem ikke forekommer for lineære modeller.) Følgende plot gør dette klart: enter image description here
Forestil dig, at dette plot repræsenterer den underliggende datagenereringsproces for sandsynligheden for, at en lille klasse studerende vil være i stand til at bestå en test om et emne med et givet antal timers undervisning om dette emne. Hver af de grå kurver repræsenterer sandsynligheden for at bestå testen med forskellige instruktioner for en af de studerende. Den fedeste kurve er gennemsnittet over hele klassen. I dette tilfælde er effekten af en ekstra times undervisning betinget af elevens attributter $ \ beta_1 $ - den samme for hver elev (det vil sige, der er ikke en tilfældig hældning). Bemærk dog, at elevernes grundlæggende evne er forskellige blandt dem - sandsynligvis på grund af forskelle i ting som IQ (det vil sige, der er en tilfældig aflytning). Den gennemsnitlige sandsynlighed for klassen som helhed følger dog en anden profil end de studerende. Det slående kontraintuitive resultat er dette: En ekstra undervisningstime kan have en betydelig effekt på sandsynligheden for, at hver studerende består testen, men har relativt ringe effekt på den sandsynlige samlet andel af studerende, der består . Dette skyldes, at nogle studerende måske allerede har haft en stor chance for at bestå, mens andre stadig stadig har ringe chance.

Spørgsmålet om, hvorvidt du skal bruge en GLMM eller GEE, er spørgsmålet om, hvilke af disse funktioner du vil estimere. Hvis du ønskede at vide om sandsynligheden for, at en given studerende bestod (hvis du f.eks. var den studerende eller elevens forælder), vil du bruge en GLMM. På den anden side, hvis du vil vide om effekten på befolkningen (hvis du f.eks. Var lærer eller rektor), ville du gerne bruge GEE.

For en anden, mere matematisk detaljeret diskussion af dette materiale, se dette svar af @Macro.

Dette er et godt svar, men jeg synes, det, især den sidste sætning, næsten synes at indikere, at du kun bruger GLM'er eller GLMM'er til ikke-normale data, som sandsynligvis ikke var beregnet, da de almindelige Gaussiske lineære (blandede) modeller også falder ind under GL (M) M-kategorien.

@Macro, du har ret, det glemmer jeg altid. Jeg redigerede svaret for at afklare dette. Lad mig vide, hvis du synes, det har brug for mere.

Jeg tjekkede også generaliserede estimeringsligninger. Er det korrekt, at ligesom med GLiM, antager GEE, at mine data er uafhængige? Jeg har flere forsøg pr. Deltager. Forsøg inden for en deltager vil sandsynligvis være mere ens end sammenlignet med hele gruppen.

@gung, Selvom GEE kan producere "populationsgennemsnitlige" koefficienter, ville jeg ikke have brug for at tage et emne, hvis jeg ville estimere _AUTER (Treatment Treatment Effect) (ATE) på sandsynlighedsskalaen på tværs af den faktiske population, _ for en binær regressor af interesse.-specifik tilgang? Måden at beregne ATE på, efter min viden, er at estimere den forudsagte sandsynlighed for hver person med og uden behandling og derefter gennemsnitlig disse forskelle.Kræver dette ikke en regressionsmetode, der kan generere forudsagte sandsynligheder for hver person (på trods af at de derefter gennemsnit beregnes)?

@Yakkanomica, hvis det er hvad du vil, helt sikkert.

@gung, tak for din bekræftelse.Jeg er bare overrasket, fordi dette virker for mig som en stor begrænsning af GEE, men jeg har aldrig set det nævnt (måske har jeg bare ikke set hårdt nok ud, men jeg har virkelig prøvet).Måske er det fordi min baggrund er økonomi, hvor der er mere fokus på ATE? Jeg tror, at denne begrænsning også vil gælde for kontinuerlige regressorer af interesse, og også for eksponentielle middelmodeller (dvs. loglink) -modeller, er du enig?

Jeg kommer ikke fra økonomi, @Yakkanomica.Mennesker i biomedicinsk forskning bruger ofte GLMM'er, men bruger lejlighedsvis GEE, når det er tættere på det spørgsmål, de er ude efter (eller når du ikke kan få GLMM'er til at konvergere).Du kan prøve at stille et nyt spørgsmål, hvis du vil få mere diskussion, der er nogle CV-brugere, der kommer fra en økonometrisk baggrund.

@gung, Jeg prøvede, men fik ingen svar :( Men at komme mere direkte tilbage til dit svar: Jeg forsøger stadig at forstå GEE fuldt ud. Min læsning af dit svar (og andet materiale) er, at jeg med GEE kan estimere ændringen i det forventedeandel af befolkningen, der ville realisere resultatet = 1, hvis hypotetisk alle i befolkningen gik fra behandling = 0 til behandling = 1 og havde de samme værdier for de andre kovariater, X = x (forudsat at min regression har kovariater), foren hvilken som helst given kombination af X = x. _ Fortsættes: _

@gung, _Fortsætter: _ Men kan GEE forudsige ændringen i den forventede andel af befolkningen, der ville realisere resultatet = 1 _ givet deres ** faktiske ** kovariater og behandlingsværdier_, hvis den faktiske delpopulation med behandling = 0 blev skiftet til behandling = 1?Eller omvendt: Kunne GEE forudsige ændringen i den forventede andel af befolkningen, der ville realisere resultatet = 0, hvis alle med behandling = 1 blev skiftet til behandling = 0?Eller ville begge disse estimater kræve en fagspecifik tilgang?

Er kovariaterne i en GLM i det væsentlige de "faste variabler" fra en blandet lineær model?

@O.rka, i det væsentlige

Michael R. Chernick

2012-07-17 06:20:23 UTC

view on stackexchange narkive permalink

Nøglen er introduktionen af tilfældige effekter. Gungs link nævner det. Men jeg synes, det burde have været nævnt direkte. Det er den største forskel.

+1, du har ret. Jeg burde have været klarere om det. Jeg redigerede mit svar for at inkludere dette punkt.

Hver gang jeg tilføjer en tilfældig effekt, såsom en tilfældig aflytning til modellen, får jeg en fejlmeddelelse. Jeg tror ikke jeg har nok datapunkter til at tilføje tilfældige effekter. Kunne det være tilfældet? fejlmeddelelse: glmm: Den endelige hessiske matrix er ikke positiv, selvom alle konvergenskriterier er opfyldt. Proceduren fortsætter på trods af denne advarsel. Efterfølgende producerede resultater er baseret på den sidste iteration. Gyldigheden af modeltilpasningen er usikker.

Behacad

2012-07-17 07:33:37 UTC

view on stackexchange narkive permalink

Jeg foreslår, at du også undersøger svarene på et spørgsmål, jeg stillede for nogen tid siden:

Generel lineær model vs. generaliseret lineær model (med en identitetslinkfunktion?)

Jeg tror ikke, det virkelig svarer på spørgsmålet, der handler om SPSS-funktioner til at køre GLM og modeller med blandet effekt, og hvordan det håndterer manglende værdier. Var dette beregnet til at være en kommentar i stedet? Ellers skal du afklare.

Beklager, åbningsindlægget syntes at have to "spørgsmål". 1. Jeg spekulerer på hvad .... og 2. Behandler de manglende værdier forskelligt? Jeg prøvede at hjælpe med det første spørgsmål.

Fair nok. Uden yderligere forklaring tror jeg stadig, at dette bedre vil passe som en kommentar til OP.

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.

om - legalese