Spørgsmål:
Hvad er en komplet liste over de sædvanlige antagelser for lineær regression?
tony
2011-10-03 09:19:19 UTC
view on stackexchange narkive permalink

Hvad er de sædvanlige antagelser for lineær regression?

Indeholder de:

  1. et lineært forhold mellem den uafhængige og afhængige variabel
  2. uafhængige fejl
  3. normal fordeling af fejl
  4. homoscedasticity

Er der andre?

Du kan finde en temmelig komplet liste i William Berrys lille bog om "Understanding Regression Assumptions": http://books.google.com/books/about/Understanding_regression_assumptions.html?id=4_Aeo9JdzCMC
Mens respondenterne har opført nogle gode ressourcer, er det et vanskeligt spørgsmål at besvare i dette format, og (mange) bøger er udelukkende viet til dette emne. Der er ingen kogebog, og der bør heller ikke gives den potentielle række situationer, som lineær regression kan omfatte.
Technically, (ordinary) linear regression is a model of the form $\mathbb{E}[Y_i] = \mathbf{X}_i \beta$, $Y_i$ iid. That simple mathematical statement encompasses *all* the assumptions. This leads me to think, AiliifnrvhCMT W, that you may be interpreting the question more broadly, perhaps in the sense of the art and practice of regression. Your further thoughts about this might be useful here.
Jeg antog (måske forkert), at de antagelser, som OP taler om, er med hensyn til at gøre * gyldige slutninger * baseret på $ \ beta $ estimaterne, som kræver større begrænsninger end dem, der simpelthen gør det muligt at identificere $ \ beta $ (som nævnt af @whuber). Det ville kræve afklaring fra tony, selv om min antagelse er korrekt (og hvis det er min første kommentar stadig, ved at det er så bredt, ville det være vanskeligt (men ikke umuligt) at skrive et svar med et så bredt omfang) .
@Andy W Jeg prøvede ikke at foreslå, at din fortolkning var forkert. Din kommentar foreslog en måde at tænke på spørgsmålet på, der går ud over tekniske antagelser og måske peger på, hvad der kan være nødvendigt for en gyldig fortolkning af regressionsresultater. Det ville ikke være nødvendigt at skrive en afhandling som svar, men selv en liste over nogle af disse bredere emner kunne være oplysende og kunne udvide omfanget og interessen for denne tråd.
@whuber, hvis $ EY_i = X_i \ beta $ betyder det, at midlerne er forskellige for forskellige $ i $, derfor kan $ Y_i $ ikke betegnes :)
@mp Du har ret; Jeg burde have mere omhyggeligt sagt, at $ Y_i - \ mathbf {X} _i \ beta $ er iid.
Jeg fandt [denne side] (http://www.duke.edu/~rnau/testing.htm) ret hjælpsom til en gennemgang af antagelser og måder at teste dem på.
En omfattende liste over antagelsen om det klassiske lineære regressionsmodel kan findes her: http://economictheoryblog.com/2015/04/01/ols_assumptions/ Det er vigtigt at bemærke, at konsekvenserne med hensyn til gyldighed af din model afhænger af, hvilkenantagelse er krænket.
Hvilken type lineær regression (også GLM, Deming osv.)?
Til sidst kan de fire antagelser, som OP nævner, let huskes ved hjælp af akronymet LINE: - Linearitet - Uafhængighed - Normalitet - Lige variation
Ti svar:
mpiktas
2011-10-04 13:12:09 UTC
view on stackexchange narkive permalink

Svaret afhænger stærkt af, hvordan du definerer komplet og normalt. Antag, at vi skriver lineær regressionsmodel på følgende måde: $ \ newcommand {\ x} {\ mathbf {x}} \ newcommand {\ bet} {\ boldsymbol \ beta} \ DeclareMathOperator { \ E} {\ mathbb {E}} \ DeclareMathOperator {\ Var} {Var} \ DeclareMathOperator {\ Cov} {Cov} \ DeclareMathOperator {\ Tr} {Tr} $

$$ y_i = \ x_i '\ bet + u_i $$

hvor $ \ mathbf {x} _i $ er vektoren af ​​forudsigelsesvariabler, $ \ beta $ er parameteren af ​​interesse, $ y_i $ er svarvariablen, og $ u_i $ er forstyrrelsen. Et af de mulige estimater for $ \ beta $ er det laveste kvadratestimat: $$ \ hat \ bet = \ textrm { argmin} _ {\ bet} \ sum (y_i- \ x_i \ bet) ^ 2 = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ sum \ x_i y_i. $$

Nu handler næsten alle lærebøgerne om antagelserne, når dette skøn $ \ hat \ bet $ har ønskelige egenskaber, såsom upartiskhed, konsistens, effektivitet, nogle fordelingsegenskaber osv.

Hver af disse egenskaber kræver visse antagelser, som ikke er de samme. Så det bedre spørgsmål ville være at stille hvilke antagelser, der er nødvendige for ønskede egenskaber ved LS-estimatet.

De egenskaber, jeg nævner ovenfor, kræver en vis sandsynlighedsmodel for regression. Og her har vi den situation, hvor forskellige modeller bruges i forskellige anvendte felter.

Det enkle tilfælde er at behandle $ y_i $ som en uafhængig tilfældig variabler, hvor $ \ x_i $ ikke er tilfældig. Jeg kan ikke lide ordet normalt, men vi kan sige, at dette er det sædvanlige tilfælde i de fleste anvendte felter (så vidt jeg ved).

Her er listen over nogle af de ønskelige egenskaber ved statistiske estimater:

  1. Estimatet findes.
  2. Ufordelagtighed: $ E \ hat \ bet = \ bet $ .
  3. Konsistens: $ \ hat \ bet \ to \ bet $ som $ n \ til \ infty $ ( $ n $ her er størrelsen på en dataprøve).
  4. Effektivitet: $ \ Var (\ hat \ bet) $ er mindre end $ \ Var (\ tilde \ bet) $ for alternative estimater $ \ tilde \ bet $ af $ \ bet $ .
  5. Evnen til enten at tilnærme eller beregne fordelingsfunktionen for $ \ hat \ bet $ .

Eksistens

Eksistensegenskaber kan virke underlige, men det er meget vigtigt. I definitionen af ​​ $ \ hat \ beta $ inverterer vi matrixen $ \ sum \ x_i \ x_i '. $ span>

Det garanteres ikke, at det inverse af denne matrix findes for alle mulige varianter af $ \ x_i $ . Så vi får straks vores første antagelse:

Matrix $ \ sum \ x_i \ x_i '$ skal have fuld rang, dvs. inverterbar.

Ufordelagtighed)

Vi har $$ \ E \ hat \ bet = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ left (\ sum \ x_i \ E y_i \ right) = \ bet, $$ if $$ \ E y_i = \ x_i \ bet. $$

Vi nummererer det muligvis den anden antagelse, men vi har muligvis sagt det direkte, da dette er en af ​​de naturlige måder at definere lineært forhold på.

Bemærk at for at få upartiskhed kræver vi kun, at $ \ E y_i = \ x_i \ bet $ for alle $ i $ og $ \ x_i $ er konstanter. Uafhængighedsejendom er ikke påkrævet.

Konsistens

For at få antagelser om konsistens er vi nødt til at angive mere klart, hvad vi mener med $ \ til $ . For sekvenser af tilfældige variabler har vi forskellige konvergensmetoder: sandsynligvis næsten sikkert i distribution og $ p $ -forståelse i øjeblikket. Antag, at vi ønsker at få konvergensen i sandsynlighed. Vi kan bruge enten loven med stort antal eller direkte bruge den multivariate Chebyshev-ulighed (ved at bruge det faktum, at $ \ E \ hat \ bet = \ bet $ ):

$$ \ Pr (\ lVert \ hat \ bet - \ bet \ rVert > \ varepsilon) \ le \ frac {\ Tr (\ Var (\ hat \ bet) ))} {\ varepsilon ^ 2}. $$

(Denne variant af uligheden kommer direkte fra at anvende Markovs ulighed på $ \ lVert \ hat \ bet - \ bet \ rVert ^ 2 $ og bemærker, at $ \ E \ lVert \ hat \ bet - \ bet \ rVert ^ 2 = \ Tr \ Var ( \ hat \ bet) $ .)

Da konvergens sandsynligvis betyder, at venstrehåndsudtrykket skal forsvinde for enhver $ \ varepsilon>0 $ span > som $ n \ to \ infty $ , har vi brug for, at $ \ Var (\ hat \ bet) \ til 0 $ som $ n \ til \ infty $ . Dette er helt rimeligt, da den nøjagtighed, hvormed vi estimerer $ \ bet $ med flere data skal øges.

Vi har den $$ \ Var (\ hat \ bet) = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ left (\ sum_i \ sum_j \ x_i \ x_j' \ Cov (y_i , y_j) \ højre) \ venstre (\ sum \ mathbf {x} _i \ mathbf {x} _i '\ højre) ^ {- 1}. $$

Uafhængighed sikrer, at $ \ Cov (y_i, y_j) = 0 $ , hvorfor udtrykket forenkles til $$ \ Var (\ hat \ bet) = \ venstre (\ sum \ x_i \ x_i '\ højre) ^ {- 1} \ venstre (\ sum_i \ x_i \ x_i' \ Var (y_i) \ højre) \ venstre (\ sum \ x_i \ x_i '\ højre) ^ {- 1}. $$

Antag nu $ \ Var (y_i) = \ text {const} $ , derefter $$ \ Var (\ hat \ beta) = \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ Var (y_i). $$

Nu hvis vi derudover kræver, at $ \ frac {1} {n} \ sum \ x_i \ x_i '$ er afgrænset for hver $ n $ , får vi straks $$ \ Var (\ bet) \ til 0 \ text {as} n \ til \ infty. $$

Så for at få konsistensen antog vi, at der ikke er nogen autokorrelation ( $ \ Cov (y_i, y_j) = 0 $ ), variansen $ \ Var (y_i) $ er konstant, og $ \ x_i $ vokser ikke for meget. Den første antagelse er opfyldt, hvis $ y_i $ kommer fra uafhængige prøver.

Effektivitet◄

Det klassiske resultat er Gauss-Markovs sætning. Betingelserne for det er nøjagtigt de to første betingelser for konsistens og betingelsen for upartiskhed.

Distributionsegenskaber

Hvis $ y_i $ er normale, får vi straks den $ \ hat \ bet $ er normalt, da det er en lineær kombination af normale tilfældige variabler. Hvis vi antager tidligere antagelser om uafhængighed, ukorreleretitet og konstant varians, får vi det $$ \ hat \ bet \ sim \ mathcal {N} \ left (\ bet, \ sigma ^ 2 \ left (\ sum \ x_i \ x_i '\ right) ^ {- 1} \ right) $$ hvor $ \ Var (y_i) = \ sigma ^ 2 $ span>.

Hvis $ y_i $ ikke er normale, men uafhængige, kan vi få en omtrentlig fordeling af $ \ hat \ bet $ takket være den centrale grænsesætning. Til dette skal vi antage, at $$ \ lim_ {n \ to \ infty} \ frac {1} {n} \ sum \ x_i \ x_i '\ til A $$ span> for en matrix $ A $ . Den konstante varians for asymptotisk normalitet er ikke påkrævet, hvis vi antager, at $$ \ lim_ {n \ to \ infty} \ frac {1} {n} \ sum \ x_i \ x_i '\ Var (y_i) \ til B. $$

Bemærk, at med konstant varians på $ y $ har vi den $ B = \ sigma ^ 2 A $ . Den centrale grænsesætning giver os derefter følgende resultat:

$$ \ sqrt {n} (\ hat \ bet - \ bet) \ to \ mathcal {N } \ left (0, A ^ {- 1} BA ^ {- 1} \ right). $$

Så ud fra dette ser vi, at uafhængighed og konstant varians for $ y_i $ og visse antagelser for $ \ mathbf {x} _i $ giver os en masse nyttige egenskaber til LS estimat $ \ hat \ bet $ .

Sagen er, at disse antagelser kan lempes. For eksempel krævede vi, at $ \ x_i $ ikke er tilfældige variabler. Denne antagelse er ikke mulig i økonometriske applikationer. Hvis vi lader $ \ x_i $ være tilfældige, kan vi få lignende resultater, hvis vi bruger betingede forventninger og tager højde for tilfældigheden af ​​ $ \ x_i $ . Antagelsen om uafhængighed kan også lempes. Vi har allerede demonstreret, at der undertiden kun er behov for ukorrekt sammenhæng. Selv dette kan lempes yderligere, og det er stadig muligt at vise, at LS-estimatet vil være konsekvent og asymptotisk normalt. Se for eksempel Whites bog for flere detaljer.

En kommentar om Gauss-Markov-sætningen.Det siger kun, at OLS er bedre end andre estimatorer, der er lineære funktioner i dataene.Imidlertid er mange almindeligt anvendte estimatorer, især maksimal sandsynlighed (ML), ikke lineære funktioner i dataene og kan være meget mere effektive end OLS under betingelserne i Gauss-Markov-sætningen.
@PeterWestfall For gaussiske normale fejl er MLE OLS :) Og du kan ikke blive mere effektiv end MLE.Jeg forsøgte at være let med matematiske detaljer i dette indlæg.
Mit punkt var, at der er mange mere effektive estimatorer end OLS under ikke-normale distributioner, når GM-forholdene holder.GM er i det væsentlige ubrugelig som en erklæring om, at OLS er "god" under ikke-normalitet, fordi de bedste estimatorer i ikke-normale tilfælde er dataens ikke-lineære funktioner.
@mpiktas Så enten tager vi $ \ mathbf x $ som ikke tilfældige, og bruger estimator $ \ mathbf {\ hat {Y}} $, eller vi tager $ \ mathbf x $ som tilfældige og bruger estimator $ \ mathbf {\ hat {Y |x}} $?
gung - Reinstate Monica
2012-12-05 11:27:42 UTC
view on stackexchange narkive permalink

Der er en række gode svar her. Det forekommer mig, at der er en antagelse, som dog ikke er angivet (i det mindste ikke eksplicit). Specifikt antager en regressionsmodel, at $ \ mathbf X $ (værdierne for dine forklarende / forudsigelige variabler) er fast og kendt , og at al usikkerheden i situationen findes inden for $ Y $ variablen. Desuden antages denne usikkerhed kun at være prøveudtagningsfejl .

Her er to måder at tænke over dette på: Hvis du bygger en forklarende model (modellering af eksperimentelle resultater), ved du nøjagtigt, hvad niveauerne for de uafhængige variabler er, fordi dig manipuleret / administreret dem. Desuden besluttede du, hvad disse niveauer ville være, før du nogensinde begyndte at indsamle data. Så du konceptualiserer al usikkerheden i forholdet, som det findes inden for svaret. På den anden side, hvis du bygger en forudsigende model, er det sandt, at situationen adskiller sig, men du behandler stadig forudsigerne som om de var faste og kendte, fordi i fremtiden, når du Brug modellen til at forudsige den sandsynlige værdi på $ y $, du vil have en vektor, $ \ mathbf x $, og modellen er designet til at behandle disse værdier, som om de er korrekte. Det vil sige, du vil opfatte usikkerheden som den ukendte værdi på $ y $.

Disse antagelser kan ses i ligningen for en prototypisk regressionsmodel: $$ y_i = \ beta_0 + \ beta_1x_i + \ varepsilon_i $$ En model med usikkerhed (måske på grund af målefejl) i $ x $ kan også have den samme datagenereringsproces, men den estimerede model vil se sådan ud: $$ y_i = \ hat \ beta_0 + \ hat \ beta_1 (x_i + \ eta_i) + \ hat \ varepsilon_i, $$ hvor $ \ eta $ repræsenterer tilfældig målefejl. (Situationer som sidstnævnte har ført til arbejde på fejl i variabelmodeller; et grundlæggende resultat er, at hvis der er målefejl i $ x $, ville den naive $ \ hat \ beta_1 $ blive dæmpet - tættere på 0 end dens sande værdi, og at hvis der er målefejl i $ y $, ville statistiske tests af $ \ hat \ beta $ s være understyrket, men ellers upartisk.)

En praktisk konsekvensen af ​​den iboende asymmetri i den typiske antagelse er, at regression af $ y $ på $ x $ er forskellig fra regression af $ x $ på $ y $. (Se mit svar her: Hvad er forskellen mellem at foretage lineær regression på y med x versus x med y? for en mere detaljeret diskussion af dette faktum.)

Hvad betyder det _ "fast" | "tilfældig" _ på almindeligt sprog? Og hvordan skelner man mellem faste og tilfældige effekter (= faktorer)? Jeg tror, ​​at der i mit [design] (http://stats.stackexchange.com/q/11887/5003) er 1 fast kendt faktor med 5 niveauer. Højre?
@stan, Jeg genkender din forvirring. Terminologi i statistik er ofte forvirrende og uhensigtsmæssig. I dette tilfælde er "fast" ikke helt det samme som * fast * i 'faste effekter og tilfældige effekter' (selvom de er relaterede). Her taler vi ikke om effekter - vi taler om $ X $ -dataene, dvs. dine forudsigende / forklarende variabler. Den nemmeste måde at forstå ideen om, at dine $ X $ -data løses, er at tænke på et planlagt eksperiment. Før du har gjort noget, når du designer eksperimentet, beslutter du, hvad niveauerne på din forklarende vil være, du opdager dem ikke undervejs.
W / prædiktiv modellering, det er ikke helt sandt, men vi behandler vores $ X $ -data på den måde i fremtiden, når vi bruger modellen til at forudsige.
Hvorfor har βs og ε en hat i bundligningen, men ikke i den øverste?
@user1205901, topmodellen er af data genereringsprocessen, bunden er dit skøn over det.
Hvad giver dette dig?I hvilken forstand er det en antagelse?For reproducerbarhed lempes denne antagelse af "lineariteten" (dvs. at den gennemsnitlige model er sand) Jeg tror, vi kræver, at $ X $ opnås fra den samme sandsynlighedsmodel.De behøver ikke være nøjagtigt de samme.
@AdamO, overveje f.eks. Denne situation: [Valg mellem LM og GLM for en log-transformeret responsvariabel] (https://stats.stackexchange.com/q/43930/7290), og mit svar der.
Så for regression af $ \ mathbf Y $ med $ X $ er $ \ mathbf X $ ** ikke en tilfældig variabel **?(Dette ville også indirekte hævde, hvorfor hældningsestimator viser sig at være normal, fordi dens lineære kombination af $ \ mathbf Y $, så ønsker at bekræfte).[Skærmbillede] (https://i.postimg.cc/76tm48fK/image.png)
Også hvis du laver $ \ mathbf X $ som fast og kendt, bliver $ E (Y | x) $ i PRF simpelthen $ E (Y) $?
Tristian Onari
2019-01-01 14:48:36 UTC
view on stackexchange narkive permalink

Antagelserne fra den klassiske lineære regressionsmodel inkluderer:

  1. Lineær parameter og korrekt modelspecifikation
  2. Fuld rang for X-matrixen
  3. Forklarende variabler skal være eksogene
  4. Uafhængige og identisk distribuerede fejlbetingelser
  5. Normale distribuerede fejltermer i befolkning

Selvom svarene her allerede giver et godt overblik over den klassiske OLS-antagelse, kan du finde en mere omfattende beskrivelse af antagelsen om den klassiske lineære regressionsmodel her:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Derudover beskriver artiklen konsekvenserne, hvis man overtræder visse antagelser.

DVL
2019-04-01 21:12:24 UTC
view on stackexchange narkive permalink

Følgende diagrammer viser hvilke antagelser der kræves for at få hvilke implikationer i de endelige og asymptotiske scenarier.

Finite OLS Assumptions

asymptotic OLS assumptions

Lineære regressionsantagelser: Nøglepunkter

Generelt kan antagelserne opdeles i det, vi har brug for til vores koefficientestimatorer

  1. at have ret i gennemsnit - upartisk - eller ret med uendelige data - konsistent og
  2. for at følge en bestemt fordeling, så vi kan vide, hvor præcist vi måler dem.

Upartiskhed / konsistens

Vi ønsker, at vores koefficienter skal have ret i gennemsnit (upartisk) eller i det mindste rigtige, hvis vi har mange data (konsistente).

Hvis du vil have upartiske koefficienter, er hovedantagelsen streng eksogenitet. Dette betyder, at den gennemsnitlige værdi af fejludtrykket i regression er 0 givet de kovariater, der er brugt i regressionen.

For ensartede koefficienter er nøgleforudsætningen "forudbestemte regressorer", hvilket er underforstået af: "der er ingen sammenhæng mellem fejludtrykket og nogen af ​​regressionens kovariater", hvis en konstant er inkluderet i regressionen. >

Strengt taget er der ingen måde at bekræfte, at disse antagelser er rigtige uden tilfældigt at tildele kovariatet, hvis koefficient du vil have ret. Uden tilfældig opgave skal du fremsætte et kvalitativt argument for, at antagelserne er opfyldt. Men hvis du laver et spredningsdiagram over rester på y-aksen og den forudsagte udgangsværdi på x-aksen, og der er en systematisk tendens væk fra 0, er det et tegn på, at denne antagelse (eller antagelsen om linearitet) ikke er opfyldt. p>

Antagelser er også vigtige for at forstå præcisionen af ​​koefficientestimater.

Forståelse af koefficienternes præcision

Homoskedasticitet og normalitet er ikke nødvendig for upartiske / konsistente koefficienter.Du har kun brug for disse yderligere antagelser, hvis du ønsker at få en fornemmelse af den præcision, som du måler dine koefficienter med, ved hjælp af genvejsmetoder (f.eks. F-tests).Du kan dog altid bruge heteroskedasticitet robuste standardfejl, bootstrapping eller randomiseringsinferens for at forstå præcision i stedet (beskrivelser og eksempler på disse sidstnævnte procedurer kan findes i mit indlæg her).

Matthew Gunn
2017-05-25 11:13:12 UTC
view on stackexchange narkive permalink

Forskellige antagelser kan bruges til at retfærdiggøre OLS

  • I nogle situationer tester en forfatter restprodukterne for normalitet.
    • Men i andre situationer er resterne ikke normale, og forfatteren bruger alligevel OLS!
  • Du får vist tekster, der siger, at homoscedasticitet er en antagelse.
    • Men du ser forskere, der bruger OLS, når homoscedasticitet overtrædes.

Hvad giver ?!

Et svar er, at noget forskellige sæt antagelser kan bruges til at retfærdiggøre brugen af ​​almindelig mindste kvadraters (OLS) estimering. OLS er et værktøj som en hammer: Du kan bruge en hammer på negle, men du kan også bruge den på pinde, til at bryde is is osv ...

To brede kategorier af antagelser er dem, der gælder for små prøver og dem, der er afhængige af store prøver, så central grænsesætning kan anvendes.

1. Små prøveantagelser

Små prøveantagelser som beskrevet i Hayashi (2000) er:

  1. Linearitet
  2. Streng eksogenitet
  3. Ingen multikollinearitet
  4. Sfæriske fejl (homoscedasticitet)

Under (1) - (4) gælder Gauss-Markov-sætningen, og den almindelige beregning af mindste kvadrater er den bedste lineære objektive estimator.

  1. Normale fejlbetingelser

Yderligere forudsat at normale fejltermer tillader hypotesetest. Hvis fejlbetingelserne er betinget normale, er fordelingen af ​​OLS-estimatoren også betinget normal.

Et andet bemærkelsesværdigt punkt er, at med normalitet er OLS-estimatoren også estimator for maksimal sandsynlighed.

2. Store prøveforudsætninger

Disse antagelser kan ændres / lempes, hvis vi har en stor nok prøve, så vi kan læne os om loven om store antal (for konsistens af OLS-estimatoren) og den centrale grænsesætning (så samplingsfordelingen af ​​OLS estimator konvergerer til normalfordelingen, og vi kan lave hypotesetest, tale om p-værdier osv ...).

Hayashi er en makroøkonomisk fyr, og hans store prøveforudsætninger er formuleret med tanke på tidsseriekonteksten:

  1. linearitet
  2. ergodisk stationaritet
  3. forudbestemte regressorer: fejltermer er ortogonale i forhold til deres samtidige fejltermer.
  4. $ \ operatorname {E} [\ mathbf {x} \ mathbf {x} '] $ er fuld rang
  5. $ \ mathbf {x} _i \ epsilon_i $ er en martingale forskelssekvens med endelige sekundære øjeblikke.
  6. Endelige 4. øjeblikke af regressorer

Du kan støde på stærkere versioner af disse antagelser, for eksempel at fejltermer er uafhængige.

Korrekte antagelser med store prøver giver dig en samplingsfordeling af OLS-estimatoren, der er asymptotisk normal.

Referencer

Hayashi, Fumio, 2000, Økonometri

Adam
2011-10-04 14:14:39 UTC
view on stackexchange narkive permalink

Det handler om, hvad du vil gøre med din model. Forestil dig, hvis dine fejl var positivt skæve / ikke-normale. Hvis du ville lave et forudsigelsesinterval, kunne du gøre det bedre end at bruge t-fordelingen. Hvis din varians er mindre ved mindre forudsagte værdier, skal du igen lave et forudsigelsesinterval, der er for stort.

Det er bedre at forstå, hvorfor antagelserne er der.

love-stats
2011-10-03 15:48:49 UTC
view on stackexchange narkive permalink

Følgende er antagelser fra lineær regressionsanalyse.

Korrekt specifikation . Den lineære funktionelle form er korrekt specificeret.

Streng eksogenitet . Fejlene i regressionen skal have betinget gennemsnit nul.

Ingen multikollinearitet . Regressorerne i X skal alle være lineært uafhængige.

Homoscedasticitet hvilket betyder, at fejludtrykket har den samme varians i hver observation.

Ingen autokorrelation : fejlene er ikke korreleret mellem observationer.

Normalitet. Det antages undertiden desuden, at fejlene har normale distribution betinget af regressorer.

Iid observationer : $ (x_i, y_i) $ er uafhængig af og har den samme fordeling som $ (x_j, y_j) $ for alle $ i \ neq j $.

For mere information, besøg denne side.

I stedet for "ingen flerfarvet" ville jeg sige "ingen lineær afhængighed". Kollinearitet bruges ofte som en kontinuerlig snarere end en kategorisk foranstaltning. Det er kun streng eller nøjagtig kollinearitet, der er forbudt.
What about time series regression? What about generalised least squares? Your list reads a bit like list of commandments when in fact last 4 assumptions can be too restrictive if we only care about consistency and asymptotic normality of least squares estimate.
Multicollinearity raises problems of *interpretation* (related to identifiability of some parameters) but it definitely is *not* a standard assumption of linear regression models. *Near* multicollinearity is primarily a *computational* problem but also raises similar issues of interpretation.
@whuber & Peter Flom: As I read in the book of Gujarati at page no. 65-75. http://tiny.cc/cwb2gIt count the "no multicollinearity" as a assumption of regression analysis.
@mpiktas: Hvis du besøger den givne URL i svaret, vil du finde antagelse om regression af tidsserier.
AilighstryCMT Some expositions may assume noncollinearity for mathematical convenience or pedagogical purposes, but it is not necessary (and actually obscures the geometric ideas). Without allowing for collinearity, I don't see how it's possible to discuss lack of identifiability (or even general hypothesis testing for linear relations among parameters).
AilihftqbnCMT Where you write (under "iid observations") that "$(x_i, y_i)$ is independent from..." you appear to be viewing the $x_i$ as random variables. Is this really the case? If so, your setting is not the usual one for linear regression; if not, there's a problem in that it's impossible for $(x_i,y_i)$ to have the same distribution as $(x_j, y_j)$ unless $x_i = x_j$ for all $i\ne j$, which implies (strong) multicollinearity.
Aksakal
2018-03-26 19:26:55 UTC
view on stackexchange narkive permalink

Der er ikke sådan en ting som en enkelt antageliste, der vil være mindst 2: en for fast og en for tilfældig designmatrix. Plus du måske vil se på antagelser om tidsserier regressioner (se s.13)

Tilfældet når designmatrixen $ X $ er fast kunne være den mest almindelige, og dens antagelser ofte udtrykkes som en Gauss-Markov-sætning. Det faste design betyder, at du virkelig styrer regressorerne. For eksempel gennemfører du et eksperiment og kan indstille parametre som temperatur, tryk osv. Se også s.13 her.

Desværre kan du i samfundsvidenskaber som økonomi sjældent kontrollere parametrene for eksperimentet. Normalt observerer du hvad der sker i økonomi, registrerer miljømålingerne og regresserer derefter efter dem. Det viser sig, at det er en meget anden og vanskeligere situation, kaldet et tilfældigt design. I dette tilfælde er Gauss-Markov-sætningen ændret, se også s.12 her. Du kan se, hvordan betingelserne nu udtrykkes i form af betingede sandsynligheder, hvilket ikke er en uskadelig ændring.

I økonometri har antagelserne navne:

  • linearitet
  • streng eksogenitet
  • ingen multikollinearitet
  • sfærisk fejlvarians (inkluderer homoscedasticitet og ingen sammenhæng)

Bemærk, at jeg aldrig nævnte normalitet. Det er ikke en standard antagelse. Det bruges ofte i intro-regressionskurser, fordi det gør nogle afledninger lettere, men det er ikke nødvendigt for, at regression fungerer og har gode egenskaber.

StatisticsDoc Consulting
2012-12-05 23:28:03 UTC
view on stackexchange narkive permalink

Antagelsen om linearitet er, at modellen er lineær i parametrene. Det er fint at have en regressionsmodel med kvadratiske eller højere ordenseffekter, så længe kraftfunktionen for den uafhængige variabel er en del af en lineær additivmodel. Hvis modellen ikke indeholder ordrer med højere ordre, når det skulle, så vil manglen på pasning være tydelig i plottet for resterne. Imidlertid indeholder standard regressionsmodeller ikke modeller, hvor den uafhængige variabel hæves til styrken af ​​en parameter (selvom der er andre tilgange, der kan bruges til at evaluere sådanne modeller). Sådanne modeller indeholder ikke-lineære parametre.

AdamO
2018-03-26 19:06:21 UTC
view on stackexchange narkive permalink

Den mindste kvadraters regressionskoefficient giver en måde at opsummere den første ordres tendens i enhver form for data. @mpiktas svar er en grundig behandling af de betingelser, hvor mindste kvadrater i stigende grad er optimale. Jeg vil gerne gå den anden vej og vise det mest generelle tilfælde, når mindste kvadrater fungerer. Lad os se den mest generelle formulering af ligningen med mindste kvadrat:

$$ E [Y | X] = \ alpha + \ beta X $$

Det er bare en lineær model for det betingede gennemsnit af svaret.

Bemærk! Jeg har skubbet fejludtrykket. Hvis du gerne vil opsummere usikkerheden ved $ \ beta $, skal du appellere til den centrale grænsesætning. Den mest generelle klasse af estimater for mindste kvadrater konvergerer til normal, når Lindeberg-betingelsen er opfyldt: kogt ned, Lindeberg-betingelsen for mindste kvadrater kræver, at brøkdelen af ​​den største kvadratiske rest til summen af kvadratiske rester skal gå til 0 som $ n \ rightarrow \ infty $. Hvis dit design fortsat prøver flere og større restprodukter, er eksperimentet "dødt i vandet".

Når Lindeberg-betingelsen er opfyldt, er regressionsparameteren $ \ beta $ veldefineret, og estimatoren $ \ hat {\ beta} $ er en upartisk estimator, der har en kendt tilnærmelsesfordeling. Der findes muligvis mere effektive estimatorer. I andre tilfælde af heteroscedasticitet eller korrelerede data er en vægtet estimator normalt mere effektiv . Derfor vil jeg aldrig gå ind for at bruge de naive metoder, når bedre er tilgængelige. Men det er de ofte ikke!

For økonometrikerne: Det er værd at påpege, at denne betingelse indebærer streng eksogenitet, så streng eksogenitet behøver ikke at angives som en antagelse i den betingede gennemsnitsmodel.Det er automatisk sandt, matematisk.(Talteori her, ikke estimater.)


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...