Det vigtigste er logikken bag modellen. Din variabel "antal patenter pr. År" er en tællevariabel, så Poisson-regression er angivet. Det er en GLM (generaliseret lineær model) med (normalt) loglink-funktion, mens den sædvanlige lineære regression er en Gaussisk GLM med identitetslink. Her er det virkelig loglink-funktionen, der er vigtigst og vigtigere end fejlfordelingen (Poisson eller Gaussian).
Variablen "Patenter" er en omfattende variabel: se intensive og omfattende egenskaber. For intensive variabler, såsom temperatur, er lineære modeller (med identitetslink) ofte passende, men med en omfattende variabel er den anderledes. Tænk, at et af dine medicinalfirmaer er opdelt i to forskellige virksomheder. Derefter måtte patenterne opdeles blandt de to nye virksomheder. Hvad sker der med covariables, $ x $ i din regression? Variabler som antal medarbejdere og RD-budget skulle også opdeles.
I det store og hele er en intensiv variabel en variabel, der er uafhængig af virksomhedsstørrelse, mens en omfattende variabel afhænger (typisk lineært) af virksomhedsstørrelse. Så på en måde hvis vi har mange forskellige omfattende variabler i regressionsligningen, måler vi størrelseseffekter gentagne gange . Det virker overflødigt, så vi bør forsøge at, når det er muligt, udtrykke variabler i intensiv form som RD-budgettet pr. Ansat (eller som procent af det samlede budget), ligeledes indtægter osv. En variabel som antallet af medarbejdere skal efterlades så omfattende. Se @ onestops svar på Håndtering af korrelerede regressorer for en anden diskussion af dette omfattende / intensive variabelspørgsmål.
Lad os se på dette algebraisk: $ P, B, E $ er patenter, budget (pr. ansat), medarbejdere i det oprindelige firma, mens
$ P_1, B_1, E_1 $ og $ P_2, B_2, E_2 $ er de tilsvarende variabler efter en opdeling. Antag som ovenfor, at $ E $ er den eneste omfattende covariable (med $ P $, selvfølgelig også omfattende).
Derefter, inden split, har vi modellen, identitetslink, med tilfældig del udeladt: $$ P = \ mu + \ beta_1 E + \ beta_2 B $$ Lad splitfraktionerne være $ \ alpha, 1- \ alpha $ så for firma 1 efter split får vi \ begin {align} \ alpha P & = \ alpha \ mu + \ alpha \ beta_1 E + \ alpha \ beta_2 B \\ [5pt] P_1 & = \ alpha \ mu + \ beta_1 E_1 + \ alpha \ beta_2 B_1 \ end {align} siden $ P_1 = \ alfa P, E_1 = \ alfa E $ men $ B_1 = B $. Ligeledes for firma to. Så modellen afhænger på en ret kompliceret måde af virksomhedsstørrelse, kun regressionskoefficienten for $ E $ er uafhængig af virksomhedsstørrelse, størrelse påvirker alle andre parametre. Det gør fortolkning af resultater vanskelig, især hvis du i dine data har virksomheder af forskellig størrelse, hvordan skal du fortolke disse koefficienter? Sammenligning med andre undersøgelser baseret på andre data osv. Bliver vildt kompliceret.
Lad os nu se, om brug af en loglink-funktion kan hjælpe. Igen skriver vi idealiserede modeller uden forstyrrelsesbetingelser. Variablerne er som ovenfor.
Først skal modellen før split: $$ P = \ exp \ left (\ mu + \ beta_1 E + \ beta_2 B \ right) $$ Efter split, for firma en, får vi: \ start {align} P_1 & = \ exp (\ log \ alpha) \ exp \ left (\ mu + \ beta_1 E + \ beta_2 B \ right) \\ [5pt] P_1 & = \ exp \ left (\ log \ alpha + \ mu + \ beta_1 E + \ beta_2 B_1 \ right) \ end {align} Dette ser næsten rigtigt ud, bortset fra et problem, den del af afhængighed af $ E $ fungerer ikke helt. Så vi ser, at antallet af medarbejdere, den ene variabel i omfattende form, skal bruges på en logskala. Så forsøger vi igen:
Model før split: $$ P = \ exp \ left (\ mu + \ beta_1 \ log E + \ beta_2 B \ right) $$ Efter split: \ start {align} P_1 & = \ exp (\ log \ alpha) \ exp \ left (\ hspace {9.5mm} \ mu + \ beta_1 \ log E + \ beta_2 B \ right) \\ [5pt]
P_1 & = \ exp \ left (\ log \ alpha + \ hspace {6mm} \ hspace {9.5mm} \ mu + \ beta_1 \ log E + \ beta_2 B_1 \ right) \\ [5pt] P_1 & = \ exp \ left ( (1- \ beta) \ log \ alpha + \ mu + \ beta_1 \ log E_1 + \ beta_2 B_1 \ højre) \\ [5pt] P_1 & = \ exp \ left (\ hspace {31mm} \ mu '+ \ beta_1 \ log E_1 + \ beta_2 B_1 \ right) \ end {align} hvor $ \ mu '$ er et nyt intercept. Nu har vi sat modellen i en form, hvor alle parametre (undtagen intercept) har en fortolkning uafhængig af virksomhedsstørrelse.
Det gør fortolkning af resultater meget lettere, og også sammenligninger med undersøgelser, der bruger andre data, tendenser med tiden osv. Du kan ikke opnå denne formular med parametre med størrelsesuafhængige fortolkninger med et identitetslink.
Konklusion: Brug en GLM med loglinkfunktion, måske en Poisson-regression eller negativ-binomial eller ... Linkfunktionen er størrelsesordener vigtigere!
For at opsummere, når der konstrueres en regressionsmodel til en responsvariabel, der er omfattende , som en tællevariabel.
-
Prøv at udtrykke covariables i intensiv form.
-
Kovariabler, der skal efterlades så omfattende: log dem (algebraen ovenfor afhænger af, at der højst er en omfattende kovariabel).
-
Brug en loglink-funktion.
Derefter kan andre kriterier, såsom dem, der er baseret på pasform, bruges til sekundære beslutninger, såsom fordelingen af forstyrrelsesudtrykket.