God pasform og hvilken model der skal vælges lineær regression eller Poisson

Spørgsmål:

God pasform og hvilken model der skal vælges lineær regression eller Poisson

Nitzan

2015-03-18 22:09:45 UTC

view on stackexchange narkive permalink

Jeg har brug for nogle råd vedrørende to hoveddilemmaer i min forskning, som er en casestudie af 3 store lægemidler og innovation. Antallet af patenter pr. År er den afhængige variabel.

Mine spørgsmål er

Hvad er de vigtigste kriterier for en god model? Hvad er mere / mindre vigtigt? Er det, at de fleste eller alle variablerne vil være signifikante? Er det sandsynligheden for "F STATISTIC"? Er det værdien af "Justeret R kvadrat"?
For det andet, hvordan kan jeg beslutte den mest passende model til forskningen? Udover patenter, der er en tællevariabel (så måske en Poisson-tælling), har jeg forklarende variabler som afkast på aktiver, forsknings- og udviklingsbudget, gentagen partner (% ikke en binær variabel), virksomhedsstørrelse (medarbejdere) og et par mere. Skal jeg foretage en lineær regression eller Poisson?

Kjetil har givet et godt detaljeret svar.En hurtigere og kortfattet mening i overensstemmelse med hans argument er, at hvad du mærker som "andet" er det virkelig vigtige spørgsmål.Det, du først nævner, er tilfældig.

En svar:

kjetil b halvorsen

2015-03-19 00:01:59 UTC

view on stackexchange narkive permalink

Det vigtigste er logikken bag modellen. Din variabel "antal patenter pr. År" er en tællevariabel, så Poisson-regression er angivet. Det er en GLM (generaliseret lineær model) med (normalt) loglink-funktion, mens den sædvanlige lineære regression er en Gaussisk GLM med identitetslink. Her er det virkelig loglink-funktionen, der er vigtigst og vigtigere end fejlfordelingen (Poisson eller Gaussian).

Variablen "Patenter" er en omfattende variabel: se intensive og omfattende egenskaber. For intensive variabler, såsom temperatur, er lineære modeller (med identitetslink) ofte passende, men med en omfattende variabel er den anderledes. Tænk, at et af dine medicinalfirmaer er opdelt i to forskellige virksomheder. Derefter måtte patenterne opdeles blandt de to nye virksomheder. Hvad sker der med covariables, $ x $ i din regression? Variabler som antal medarbejdere og RD-budget skulle også opdeles.

I det store og hele er en intensiv variabel en variabel, der er uafhængig af virksomhedsstørrelse, mens en omfattende variabel afhænger (typisk lineært) af virksomhedsstørrelse. Så på en måde hvis vi har mange forskellige omfattende variabler i regressionsligningen, måler vi størrelseseffekter gentagne gange . Det virker overflødigt, så vi bør forsøge at, når det er muligt, udtrykke variabler i intensiv form som RD-budgettet pr. Ansat (eller som procent af det samlede budget), ligeledes indtægter osv. En variabel som antallet af medarbejdere skal efterlades så omfattende. Se @ onestops svar på Håndtering af korrelerede regressorer for en anden diskussion af dette omfattende / intensive variabelspørgsmål.

Lad os se på dette algebraisk: $ P, B, E $ er patenter, budget (pr. ansat), medarbejdere i det oprindelige firma, mens $ P_1, B_1, E_1 $ og $ P_2, B_2, E_2 $ er de tilsvarende variabler efter en opdeling. Antag som ovenfor, at $ E $ er den eneste omfattende covariable (med $ P $, selvfølgelig også omfattende).

Derefter, inden split, har vi modellen, identitetslink, med tilfældig del udeladt: $$ P = \ mu + \ beta_1 E + \ beta_2 B $$ Lad splitfraktionerne være $ \ alpha, 1- \ alpha $ så for firma 1 efter split får vi \ begin {align} \ alpha P & = \ alpha \ mu + \ alpha \ beta_1 E + \ alpha \ beta_2 B \\ [5pt] P_1 & = \ alpha \ mu + \ beta_1 E_1 + \ alpha \ beta_2 B_1 \ end {align} siden $ P_1 = \ alfa P, E_1 = \ alfa E $ men $ B_1 = B $. Ligeledes for firma to. Så modellen afhænger på en ret kompliceret måde af virksomhedsstørrelse, kun regressionskoefficienten for $ E $ er uafhængig af virksomhedsstørrelse, størrelse påvirker alle andre parametre. Det gør fortolkning af resultater vanskelig, især hvis du i dine data har virksomheder af forskellig størrelse, hvordan skal du fortolke disse koefficienter? Sammenligning med andre undersøgelser baseret på andre data osv. Bliver vildt kompliceret.

Lad os nu se, om brug af en loglink-funktion kan hjælpe. Igen skriver vi idealiserede modeller uden forstyrrelsesbetingelser. Variablerne er som ovenfor.

Først skal modellen før split: $$ P = \ exp \ left (\ mu + \ beta_1 E + \ beta_2 B \ right) $$ Efter split, for firma en, får vi: \ start {align} P_1 & = \ exp (\ log \ alpha) \ exp \ left (\ mu + \ beta_1 E + \ beta_2 B \ right) \\ [5pt] P_1 & = \ exp \ left (\ log \ alpha + \ mu + \ beta_1 E + \ beta_2 B_1 \ right) \ end {align} Dette ser næsten rigtigt ud, bortset fra et problem, den del af afhængighed af $ E $ fungerer ikke helt. Så vi ser, at antallet af medarbejdere, den ene variabel i omfattende form, skal bruges på en logskala. Så forsøger vi igen:

Model før split: $$ P = \ exp \ left (\ mu + \ beta_1 \ log E + \ beta_2 B \ right) $$ Efter split: \ start {align} P_1 & = \ exp (\ log \ alpha) \ exp \ left (\ hspace {9.5mm} \ mu + \ beta_1 \ log E + \ beta_2 B \ right) \\ [5pt] P_1 & = \ exp \ left (\ log \ alpha + \ hspace {6mm} \ hspace {9.5mm} \ mu + \ beta_1 \ log E + \ beta_2 B_1 \ right) \\ [5pt] P_1 & = \ exp \ left ( (1- \ beta) \ log \ alpha + \ mu + \ beta_1 \ log E_1 + \ beta_2 B_1 \ højre) \\ [5pt] P_1 & = \ exp \ left (\ hspace {31mm} \ mu '+ \ beta_1 \ log E_1 + \ beta_2 B_1 \ right) \ end {align} hvor $ \ mu '$ er et nyt intercept. Nu har vi sat modellen i en form, hvor alle parametre (undtagen intercept) har en fortolkning uafhængig af virksomhedsstørrelse.

Det gør fortolkning af resultater meget lettere, og også sammenligninger med undersøgelser, der bruger andre data, tendenser med tiden osv. Du kan ikke opnå denne formular med parametre med størrelsesuafhængige fortolkninger med et identitetslink.

Konklusion: Brug en GLM med loglinkfunktion, måske en Poisson-regression eller negativ-binomial eller ... Linkfunktionen er størrelsesordener vigtigere!

For at opsummere, når der konstrueres en regressionsmodel til en responsvariabel, der er omfattende , som en tællevariabel.

Prøv at udtrykke covariables i intensiv form.
Kovariabler, der skal efterlades så omfattende: log dem (algebraen ovenfor afhænger af, at der højst er en omfattende kovariabel).
Brug en loglink-funktion.

Derefter kan andre kriterier, såsom dem, der er baseret på pasform, bruges til sekundære beslutninger, såsom fordelingen af forstyrrelsesudtrykket.

Jeg troede, at en Poisson-regression * var * en GLS-regression med loglink-funktion?

Normalt, ja, men du kan også overveje en Poisson-regression med identitetslink (eller andet, såsom kvadratrod).Men mit argument her viser, at du normalt vil have log-linket.

@ kjetil b halvorsen, hvad er $ (1- \ beta) $ i korrektion af $ \ mu $ term?

E fungerer ikke helt ... skal bruges på en logskala.Hvorfor skifter en log E fra omfattende til intensiv?Konverterer ikke til intensiv variabel behov for E / virksomhedsstørrelse?

Mithril: Du tager ikke E-loggen direkte, men af dens forventning, hvilket fører til loglink-funktionen.Og mens E / størrelse er intensiv, fungerer det ikke godt i modellen, som jeg har forsøgt at forklare ... men at tage logfiler fører til log (størrelse) som en offset!

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.

Loading...