Hvad er de sædvanlige antagelser for lineær regression?
Indeholder de:
- et lineært forhold mellem den uafhængige og afhængige variabel
- uafhængige fejl
- normal fordeling af fejl
- homoscedasticity
Er der andre?
Hvad er de sædvanlige antagelser for lineær regression?
Indeholder de:
Er der andre?
Svaret afhænger stærkt af, hvordan du definerer komplet og normalt. Antag, at vi skriver lineær regressionsmodel på følgende måde: $ \ newcommand {\ x} {\ mathbf {x}} \ newcommand {\ bet} {\ boldsymbol \ beta} \ DeclareMathOperator { \ E} {\ mathbb {E}} \ DeclareMathOperator {\ Var} {Var} \ DeclareMathOperator {\ Cov} {Cov} \ DeclareMathOperator {\ Tr} {Tr} $
$$ y_i = \ x_i '\ bet + u_i $$
hvor $ \ mathbf {x} _i $ er vektoren af forudsigelsesvariabler, $ \ beta $ er parameteren af interesse, $ y_i $ er svarvariablen, og $ u_i $ er forstyrrelsen. Et af de mulige estimater for $ \ beta $ er det laveste kvadratestimat: $$ \ hat \ bet = \ textrm { argmin} _ {\ bet} \ sum (y_i- \ x_i \ bet) ^ 2 = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ sum \ x_i y_i. $$
Nu handler næsten alle lærebøgerne om antagelserne, når dette skøn $ \ hat \ bet $ har ønskelige egenskaber, såsom upartiskhed, konsistens, effektivitet, nogle fordelingsegenskaber osv.
Hver af disse egenskaber kræver visse antagelser, som ikke er de samme. Så det bedre spørgsmål ville være at stille hvilke antagelser, der er nødvendige for ønskede egenskaber ved LS-estimatet.
De egenskaber, jeg nævner ovenfor, kræver en vis sandsynlighedsmodel for regression. Og her har vi den situation, hvor forskellige modeller bruges i forskellige anvendte felter.
Det enkle tilfælde er at behandle $ y_i $ som en uafhængig tilfældig variabler, hvor $ \ x_i $ ikke er tilfældig. Jeg kan ikke lide ordet normalt, men vi kan sige, at dette er det sædvanlige tilfælde i de fleste anvendte felter (så vidt jeg ved).
Her er listen over nogle af de ønskelige egenskaber ved statistiske estimater:
Eksistens
Eksistensegenskaber kan virke underlige, men det er meget vigtigt. I definitionen af $ \ hat \ beta $ inverterer vi matrixen $ \ sum \ x_i \ x_i '. $ span>
Det garanteres ikke, at det inverse af denne matrix findes for alle mulige varianter af $ \ x_i $ . Så vi får straks vores første antagelse:
Matrix $ \ sum \ x_i \ x_i '$ skal have fuld rang, dvs. inverterbar.
Ufordelagtighed)
Vi har $$ \ E \ hat \ bet = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ left (\ sum \ x_i \ E y_i \ right) = \ bet, $$ if $$ \ E y_i = \ x_i \ bet. $$
Vi nummererer det muligvis den anden antagelse, men vi har muligvis sagt det direkte, da dette er en af de naturlige måder at definere lineært forhold på.
Bemærk at for at få upartiskhed kræver vi kun, at $ \ E y_i = \ x_i \ bet $ for alle $ i $ og $ \ x_i $ er konstanter. Uafhængighedsejendom er ikke påkrævet.
Konsistens
For at få antagelser om konsistens er vi nødt til at angive mere klart, hvad vi mener med $ \ til $ . For sekvenser af tilfældige variabler har vi forskellige konvergensmetoder: sandsynligvis næsten sikkert i distribution og $ p $ -forståelse i øjeblikket. Antag, at vi ønsker at få konvergensen i sandsynlighed. Vi kan bruge enten loven med stort antal eller direkte bruge den multivariate Chebyshev-ulighed (ved at bruge det faktum, at $ \ E \ hat \ bet = \ bet $ ):
$$ \ Pr (\ lVert \ hat \ bet - \ bet \ rVert > \ varepsilon) \ le \ frac {\ Tr (\ Var (\ hat \ bet) ))} {\ varepsilon ^ 2}. $$
(Denne variant af uligheden kommer direkte fra at anvende Markovs ulighed på $ \ lVert \ hat \ bet - \ bet \ rVert ^ 2 $ og bemærker, at $ \ E \ lVert \ hat \ bet - \ bet \ rVert ^ 2 = \ Tr \ Var ( \ hat \ bet) $ .)
Da konvergens sandsynligvis betyder, at venstrehåndsudtrykket skal forsvinde for enhver $ \ varepsilon>0 $ span > som $ n \ to \ infty $ , har vi brug for, at $ \ Var (\ hat \ bet) \ til 0 $ som $ n \ til \ infty $ . Dette er helt rimeligt, da den nøjagtighed, hvormed vi estimerer $ \ bet $ med flere data skal øges.
Vi har den $$ \ Var (\ hat \ bet) = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ left (\ sum_i \ sum_j \ x_i \ x_j' \ Cov (y_i , y_j) \ højre) \ venstre (\ sum \ mathbf {x} _i \ mathbf {x} _i '\ højre) ^ {- 1}. $$
Uafhængighed sikrer, at $ \ Cov (y_i, y_j) = 0 $ , hvorfor udtrykket forenkles til $$ \ Var (\ hat \ bet) = \ venstre (\ sum \ x_i \ x_i '\ højre) ^ {- 1} \ venstre (\ sum_i \ x_i \ x_i' \ Var (y_i) \ højre) \ venstre (\ sum \ x_i \ x_i '\ højre) ^ {- 1}. $$
Antag nu $ \ Var (y_i) = \ text {const} $ , derefter $$ \ Var (\ hat \ beta) = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ Var (y_i). $$
Nu hvis vi derudover kræver, at $ \ frac {1} {n} \ sum \ x_i \ x_i '$ er afgrænset for hver $ n $ , får vi straks $$ \ Var (\ bet) \ til 0 \ text {as} n \ til \ infty. $$
Så for at få konsistensen antog vi, at der ikke er nogen autokorrelation ( $ \ Cov (y_i, y_j) = 0 $ ), variansen $ \ Var (y_i) $ er konstant, og $ \ x_i $ vokser ikke for meget. Den første antagelse er opfyldt, hvis $ y_i $ kommer fra uafhængige prøver.
Effektivitet◄
Det klassiske resultat er Gauss-Markovs sætning. Betingelserne for det er nøjagtigt de to første betingelser for konsistens og betingelsen for upartiskhed.
Distributionsegenskaber
Hvis $ y_i $ er normale, får vi straks den $ \ hat \ bet $ er normalt, da det er en lineær kombination af normale tilfældige variabler. Hvis vi antager tidligere antagelser om uafhængighed, ukorreleretitet og konstant varians, får vi det $$ \ hat \ bet \ sim \ mathcal {N} \ left (\ bet, \ sigma ^ 2 \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ right) $$ hvor $ \ Var (y_i) = \ sigma ^ 2 $ span>.
Hvis $ y_i $ ikke er normale, men uafhængige, kan vi få en omtrentlig fordeling af $ \ hat \ bet $ takket være den centrale grænsesætning. Til dette skal vi antage, at $$ \ lim_ {n \ to \ infty} \ frac {1} {n} \ sum \ x_i \ x_i '\ til A $$ span> for en matrix $ A $ . Den konstante varians for asymptotisk normalitet er ikke påkrævet, hvis vi antager, at $$ \ lim_ {n \ to \ infty} \ frac {1} {n} \ sum \ x_i \ x_i '\ Var (y_i) \ til B. $$
Bemærk, at med konstant varians på $ y $ har vi den $ B = \ sigma ^ 2 A $ . Den centrale grænsesætning giver os derefter følgende resultat:
$$ \ sqrt {n} (\ hat \ bet - \ bet) \ to \ mathcal {N } \ left (0, A ^ {- 1} BA ^ {- 1} \ right). $$
Så ud fra dette ser vi, at uafhængighed og konstant varians for $ y_i $ og visse antagelser for $ \ mathbf {x} _i $ giver os en masse nyttige egenskaber til LS estimat $ \ hat \ bet $ .
Sagen er, at disse antagelser kan lempes. For eksempel krævede vi, at $ \ x_i $ ikke er tilfældige variabler. Denne antagelse er ikke mulig i økonometriske applikationer. Hvis vi lader $ \ x_i $ være tilfældige, kan vi få lignende resultater, hvis vi bruger betingede forventninger og tager højde for tilfældigheden af $ \ x_i $ . Antagelsen om uafhængighed kan også lempes. Vi har allerede demonstreret, at der undertiden kun er behov for ukorrekt sammenhæng. Selv dette kan lempes yderligere, og det er stadig muligt at vise, at LS-estimatet vil være konsekvent og asymptotisk normalt. Se for eksempel Whites bog for flere detaljer.
Der er en række gode svar her. Det forekommer mig, at der er en antagelse, som dog ikke er angivet (i det mindste ikke eksplicit). Specifikt antager en regressionsmodel, at $ \ mathbf X $ (værdierne for dine forklarende / forudsigelige variabler) er fast og kendt , og at al usikkerheden i situationen findes inden for $ Y $ variablen. Desuden antages denne usikkerhed kun at være prøveudtagningsfejl .
Her er to måder at tænke over dette på: Hvis du bygger en forklarende model (modellering af eksperimentelle resultater), ved du nøjagtigt, hvad niveauerne for de uafhængige variabler er, fordi dig manipuleret / administreret dem. Desuden besluttede du, hvad disse niveauer ville være, før du nogensinde begyndte at indsamle data. Så du konceptualiserer al usikkerheden i forholdet, som det findes inden for svaret. På den anden side, hvis du bygger en forudsigende model, er det sandt, at situationen adskiller sig, men du behandler stadig forudsigerne som om de var faste og kendte, fordi i fremtiden, når du Brug modellen til at forudsige den sandsynlige værdi på $ y $, du vil have en vektor, $ \ mathbf x $, og modellen er designet til at behandle disse værdier, som om de er korrekte. Det vil sige, du vil opfatte usikkerheden som den ukendte værdi på $ y $.
Disse antagelser kan ses i ligningen for en prototypisk regressionsmodel: $$ y_i = \ beta_0 + \ beta_1x_i + \ varepsilon_i $$ En model med usikkerhed (måske på grund af målefejl) i $ x $ kan også have den samme datagenereringsproces, men den estimerede model vil se sådan ud: $$ y_i = \ hat \ beta_0 + \ hat \ beta_1 (x_i + \ eta_i) + \ hat \ varepsilon_i, $$ hvor $ \ eta $ repræsenterer tilfældig målefejl. (Situationer som sidstnævnte har ført til arbejde på fejl i variabelmodeller; et grundlæggende resultat er, at hvis der er målefejl i $ x $, ville den naive $ \ hat \ beta_1 $ blive dæmpet - tættere på 0 end dens sande værdi, og at hvis der er målefejl i $ y $, ville statistiske tests af $ \ hat \ beta $ s være understyrket, men ellers upartisk.)
En praktisk konsekvensen af den iboende asymmetri i den typiske antagelse er, at regression af $ y $ på $ x $ er forskellig fra regression af $ x $ på $ y $. (Se mit svar her: Hvad er forskellen mellem at foretage lineær regression på y med x versus x med y? for en mere detaljeret diskussion af dette faktum.)
Antagelserne fra den klassiske lineære regressionsmodel inkluderer:
Selvom svarene her allerede giver et godt overblik over den klassiske OLS-antagelse, kan du finde en mere omfattende beskrivelse af antagelsen om den klassiske lineære regressionsmodel her:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Derudover beskriver artiklen konsekvenserne, hvis man overtræder visse antagelser.
Følgende diagrammer viser hvilke antagelser der kræves for at få hvilke implikationer i de endelige og asymptotiske scenarier.
Generelt kan antagelserne opdeles i det, vi har brug for til vores koefficientestimatorer
Vi ønsker, at vores koefficienter skal have ret i gennemsnit (upartisk) eller i det mindste rigtige, hvis vi har mange data (konsistente).
Hvis du vil have upartiske koefficienter, er hovedantagelsen streng eksogenitet. Dette betyder, at den gennemsnitlige værdi af fejludtrykket i regression er 0 givet de kovariater, der er brugt i regressionen.
For ensartede koefficienter er nøgleforudsætningen "forudbestemte regressorer", hvilket er underforstået af: "der er ingen sammenhæng mellem fejludtrykket og nogen af regressionens kovariater", hvis en konstant er inkluderet i regressionen. >
Strengt taget er der ingen måde at bekræfte, at disse antagelser er rigtige uden tilfældigt at tildele kovariatet, hvis koefficient du vil have ret. Uden tilfældig opgave skal du fremsætte et kvalitativt argument for, at antagelserne er opfyldt. Men hvis du laver et spredningsdiagram over rester på y-aksen og den forudsagte udgangsværdi på x-aksen, og der er en systematisk tendens væk fra 0, er det et tegn på, at denne antagelse (eller antagelsen om linearitet) ikke er opfyldt. p>
Antagelser er også vigtige for at forstå præcisionen af koefficientestimater.
Homoskedasticitet og normalitet er ikke nødvendig for upartiske / konsistente koefficienter.Du har kun brug for disse yderligere antagelser, hvis du ønsker at få en fornemmelse af den præcision, som du måler dine koefficienter med, ved hjælp af genvejsmetoder (f.eks. F-tests).Du kan dog altid bruge heteroskedasticitet robuste standardfejl, bootstrapping eller randomiseringsinferens for at forstå præcision i stedet (beskrivelser og eksempler på disse sidstnævnte procedurer kan findes i mit indlæg her).
Hvad giver ?!
Et svar er, at noget forskellige sæt antagelser kan bruges til at retfærdiggøre brugen af almindelig mindste kvadraters (OLS) estimering. OLS er et værktøj som en hammer: Du kan bruge en hammer på negle, men du kan også bruge den på pinde, til at bryde is is osv ...
To brede kategorier af antagelser er dem, der gælder for små prøver og dem, der er afhængige af store prøver, så central grænsesætning kan anvendes.
Små prøveantagelser som beskrevet i Hayashi (2000) er:
Under (1) - (4) gælder Gauss-Markov-sætningen, og den almindelige beregning af mindste kvadrater er den bedste lineære objektive estimator.
Yderligere forudsat at normale fejltermer tillader hypotesetest. Hvis fejlbetingelserne er betinget normale, er fordelingen af OLS-estimatoren også betinget normal.
Et andet bemærkelsesværdigt punkt er, at med normalitet er OLS-estimatoren også estimator for maksimal sandsynlighed.
Disse antagelser kan ændres / lempes, hvis vi har en stor nok prøve, så vi kan læne os om loven om store antal (for konsistens af OLS-estimatoren) og den centrale grænsesætning (så samplingsfordelingen af OLS estimator konvergerer til normalfordelingen, og vi kan lave hypotesetest, tale om p-værdier osv ...).
Hayashi er en makroøkonomisk fyr, og hans store prøveforudsætninger er formuleret med tanke på tidsseriekonteksten:
Du kan støde på stærkere versioner af disse antagelser, for eksempel at fejltermer er uafhængige.
Korrekte antagelser med store prøver giver dig en samplingsfordeling af OLS-estimatoren, der er asymptotisk normal.
Hayashi, Fumio, 2000, Økonometri
Det handler om, hvad du vil gøre med din model. Forestil dig, hvis dine fejl var positivt skæve / ikke-normale. Hvis du ville lave et forudsigelsesinterval, kunne du gøre det bedre end at bruge t-fordelingen. Hvis din varians er mindre ved mindre forudsagte værdier, skal du igen lave et forudsigelsesinterval, der er for stort.
Det er bedre at forstå, hvorfor antagelserne er der.
Følgende er antagelser fra lineær regressionsanalyse.
Korrekt specifikation . Den lineære funktionelle form er korrekt specificeret.
Streng eksogenitet . Fejlene i regressionen skal have betinget gennemsnit nul.
Ingen multikollinearitet . Regressorerne i X skal alle være lineært uafhængige.
Homoscedasticitet hvilket betyder, at fejludtrykket har den samme varians i hver observation.
Ingen autokorrelation : fejlene er ikke korreleret mellem observationer.
Normalitet. Det antages undertiden desuden, at fejlene har normale distribution betinget af regressorer.
Iid observationer : $ (x_i, y_i) $ er uafhængig af og har den samme fordeling som $ (x_j, y_j) $ for alle $ i \ neq j $.
For mere information, besøg denne side.
Der er ikke sådan en ting som en enkelt antageliste, der vil være mindst 2: en for fast og en for tilfældig designmatrix. Plus du måske vil se på antagelser om tidsserier regressioner (se s.13)
Tilfældet når designmatrixen $ X $ er fast kunne være den mest almindelige, og dens antagelser ofte udtrykkes som en Gauss-Markov-sætning. Det faste design betyder, at du virkelig styrer regressorerne. For eksempel gennemfører du et eksperiment og kan indstille parametre som temperatur, tryk osv. Se også s.13 her.
Desværre kan du i samfundsvidenskaber som økonomi sjældent kontrollere parametrene for eksperimentet. Normalt observerer du hvad der sker i økonomi, registrerer miljømålingerne og regresserer derefter efter dem. Det viser sig, at det er en meget anden og vanskeligere situation, kaldet et tilfældigt design. I dette tilfælde er Gauss-Markov-sætningen ændret, se også s.12 her. Du kan se, hvordan betingelserne nu udtrykkes i form af betingede sandsynligheder, hvilket ikke er en uskadelig ændring.
I økonometri har antagelserne navne:
Bemærk, at jeg aldrig nævnte normalitet. Det er ikke en standard antagelse. Det bruges ofte i intro-regressionskurser, fordi det gør nogle afledninger lettere, men det er ikke nødvendigt for, at regression fungerer og har gode egenskaber.
Antagelsen om linearitet er, at modellen er lineær i parametrene. Det er fint at have en regressionsmodel med kvadratiske eller højere ordenseffekter, så længe kraftfunktionen for den uafhængige variabel er en del af en lineær additivmodel. Hvis modellen ikke indeholder ordrer med højere ordre, når det skulle, så vil manglen på pasning være tydelig i plottet for resterne. Imidlertid indeholder standard regressionsmodeller ikke modeller, hvor den uafhængige variabel hæves til styrken af en parameter (selvom der er andre tilgange, der kan bruges til at evaluere sådanne modeller). Sådanne modeller indeholder ikke-lineære parametre.
Den mindste kvadraters regressionskoefficient giver en måde at opsummere den første ordres tendens i enhver form for data. @mpiktas svar er en grundig behandling af de betingelser, hvor mindste kvadrater i stigende grad er optimale. Jeg vil gerne gå den anden vej og vise det mest generelle tilfælde, når mindste kvadrater fungerer. Lad os se den mest generelle formulering af ligningen med mindste kvadrat:
$$ E [Y | X] = \ alpha + \ beta X $$
Det er bare en lineær model for det betingede gennemsnit af svaret.
Bemærk! Jeg har skubbet fejludtrykket. Hvis du gerne vil opsummere usikkerheden ved $ \ beta $, skal du appellere til den centrale grænsesætning. Den mest generelle klasse af estimater for mindste kvadrater konvergerer til normal, når Lindeberg-betingelsen er opfyldt: kogt ned, Lindeberg-betingelsen for mindste kvadrater kræver, at brøkdelen af den største kvadratiske rest til summen af kvadratiske rester skal gå til 0 som $ n \ rightarrow \ infty $. Hvis dit design fortsat prøver flere og større restprodukter, er eksperimentet "dødt i vandet".
Når Lindeberg-betingelsen er opfyldt, er regressionsparameteren $ \ beta $ veldefineret, og estimatoren $ \ hat {\ beta} $ er en upartisk estimator, der har en kendt tilnærmelsesfordeling. Der findes muligvis mere effektive estimatorer. I andre tilfælde af heteroscedasticitet eller korrelerede data er en vægtet estimator normalt mere effektiv . Derfor vil jeg aldrig gå ind for at bruge de naive metoder, når bedre er tilgængelige. Men det er de ofte ikke!