Spørgsmål:
Bestemmelseskoefficient ($ r ^ 2 $): Jeg har aldrig forstået fortolkningen fuldt ud
JackOfAll
2010-08-09 19:52:42 UTC
view on stackexchange narkive permalink

Jeg vil fuldt ud forstå begrebet $ r ^ 2 $, der beskriver mængden af ​​variation mellem variabler. Hver webforklaring er lidt mekanisk og stump. Jeg ønsker at "få" konceptet, ikke kun bruge numrene mekanisk.

F.eks .: Studerede timer vs. testscore

$ r $ = .8

$ r ^ 2 $ = .64

  • Hvad betyder dette?
  • 64% af variationen i testresultater kan forklares med timer?
  • Hvordan ved vi det bare ved at kvadre?
dit spørgsmål handler ikke om R vs R-firkant (du forstår, at $ 0,8 ^ 2 = 0,64 $), det handler om fortolkning af $ r ^ 2 $. Omformuler titlen.
et lignende spørgsmål: http://stats.stackexchange.com/questions/28139/why-squaring-r-gives-explained-variance?rq=1
@amoeba var enig, jeg trak tagget.
Du har brug for $ n $ for at bestemme betydningen.Se også http://stats.stackexchange.com/a/265924/99274.
Tre svar:
Brett
2010-08-09 20:44:50 UTC
view on stackexchange narkive permalink

Start med den grundlæggende idé om variation. Din startmodel er summen af ​​de kvadratiske afvigelser fra gennemsnittet. R ^ 2-værdien er den andel af den variation, der tages højde for ved hjælp af en alternativ model. For eksempel fortæller R-kvadrat dig, hvor meget af variationen i Y, du kan slippe af med ved at opsummere de kvadrerede afstande fra en regressionslinie snarere end middelværdien.

Jeg tror, ​​dette er gjort helt klart hvis vi tænker på det enkle regressionsproblem, der er planlagt. Overvej et typisk spredningsdiagram, hvor du har en forudsiger X langs den vandrette akse og et svar Y langs den lodrette akse.

Middelværdien er en vandret linje på plottet, hvor Y er konstant. Den samlede variation i Y er summen af ​​kvadratiske forskelle mellem gennemsnittet af Y og hvert enkelt datapunkt. Det er afstanden mellem den gennemsnitlige linje og hvert enkelt punkt i kvadrat og sammenlagt.

Du kan også beregne et andet mål for variabilitet, når du har regressionslinjen fra modellen. Dette er forskellen mellem hvert Y-punkt og regressionslinjen. I stedet for hver (Y - middelværdien) kvadreret får vi (Y - punktet på regressionslinjen) kvadratisk.

Hvis regressionslinjen er alt andet end vandret, får vi mindre total afstand, når vi bruger denne tilpassede regressionslinje snarere end gennemsnittet - det vil sige, at der er mindre uforklarlig variation. Forholdet mellem den forklarede ekstra variation og den originale variation er din R ^ 2. Det er andelen af ​​den oprindelige variation i dit svar, der forklares ved at tilpasse den regressionslinie.

enter image description here

Her er nogle R-koder til en graf med middelværdien, regressionslinjen og segmenterne fra regressionslinjen til hvert punkt for at hjælpe med at visualisere:

  biblioteksdata (ggplot2) data (trofast) plotdata <- samlet (udbrud ~ ventetid, data = trofast, FUN = middel) linefit1 <- lm (udbrud ~ venter, data = plotdata) plotdata $ forventet <- forudsig (linefit1)
plotdata $ tegn <- rester (linefit1) > 0p <- ggplot (plotdata, aes (y = udbrud, x = ventende, xend = ventende, yend = forventet)) p + geom_point (form = 1, størrelse = 3) + geom_smooth (metode = lm, se = FALSK) + geom_segment (aes (y = udbrud, x = ventende, xend = ventende, yend = forventet, farve = tegn), data = plotdata) + tema (legend.position = "ingen") + geom_hline (yintercept = middelværdi (plotdata $ udbrud), størrelse = 1)  
> Forholdet mellem den forklarede variation og den oprindelige variation er din R ^ 2 Lad os se, om jeg fik dette. Hvis den oprindelige variation fra gennemsnit udgør 100, og regressionsvariationen udgør 20, så tælles forholdet = 20/100 = .2 Du siger R ^ 2 = .2 b / c 20% af den gennemsnitlige variation (rød) for ved den forklarede variation (grøn) (I tilfælde af r = 1) Hvis den oprindelige variation udgør 50, og regressionsvariationen udgør 0, er forholdet = 0/50 = 0 = 0% af variationen fra gennemsnittet ( rød) tælles med den forklarede variation (grøn) Jeg forventer, at R ^ 2 er 1, ikke 0.
R ^ 2 = 1- (SSR / SST) eller (SST-SSR) / SST. Så i dine eksempler er R ^ 2 = .80 og 1.00. Forskellen mellem regressionslinjen og hvert punkt er, at venstre UNForklaret af pasformen. Resten er den forklarede andel. Ellers er det helt rigtigt.
Jeg redigerede det sidste afsnit for at forsøge at gøre det lidt klarere. Konceptuelt (og beregningsmæssigt) er alt hvad du har brug for der. Det kan være tydeligere at faktisk tilføje formlen og henvise til SST SSE og SSR, men så prøvede jeg at få fat på det konceptuelt
dvs.: R ^ 2 er andelen af ​​den samlede variation fra gennemsnit (SST), der er forskellen s / w den forventede regressionsværdi og middelværdi (SSE). I mit eksempel på timer vs. score ville regressionsværdien være den forventede testscore baseret på sammenhæng med undersøgte timer. Enhver yderligere variation derfra tilskrives SSR. For et givet punkt forklarede de undersøgte timer variabel / regression x% af den samlede variation fra gennemsnittet (SST). Med en høj r-værdi er "forklaret" en stor procentdel af SST sammenlignet med SSR. Med en lav r-værdi er "forklaret" en lavere procentdel af SST sammenlignet med SSR.
@BrettMagill, Jeg tror, linket til billedet er brudt ...
Det ser ud til, at ImageShack har slettet dit billede og [udskiftet det med et annoncebanner.] (Http://meta.stackexchange.com/q/263771) Hvis du stadig har det originale billede eller kan genskabe det, bedes du uploade det igen ved hjælp afknappen til billedupload i editorens værktøjslinje.
user28
2010-08-09 20:09:35 UTC
view on stackexchange narkive permalink

En matematisk demonstration af forholdet mellem de to er her: Pearsons korrelation og mindste kvadraters regressionsanalyse.

Jeg er ikke sikker på, om der er en geometrisk eller enhver anden intuition, der kan tilbydes bortset fra matematikken, men hvis jeg kan tænke på en, opdaterer jeg dette svar.

Opdatering: Geometrisk intuition

Her er en geometrisk intuition, jeg kom på. Antag at du har to variabler $ x $ og $ y $, som er middelcentrerede. (Hvis vi antager, at middelcentreret lader os ignorere skæringspunktet, der forenkler den geometriske intuition lidt.) Lad os først overveje geometrien af ​​lineær regression. I lineær regression modellerer vi $ y $ som følger:

$ y = x \ beta + \ epsilon $.

Overvej situationen, når vi har to observationer fra ovenstående data genereringsproces givet af parene ($ y_1, y_2 $) og ($ x_1, x_2 $). Vi kan se dem som vektorer i to-dimensionelt rum som vist i nedenstående figur:

alt tekst http://a.imageshack.us/img202/669/linearregression1.png

Således, med hensyn til ovenstående geometri, er vores mål at finde en $ \ beta $ således, at vektoren $ x \ \ beta $ er tættest på vektoren $ y $. Bemærk, at forskellige valg af $ \ beta $ skalerer $ x $ passende. Lad $ \ hat {\ beta} $ være værdien af ​​$ \ beta $, der er vores bedst mulige tilnærmelse til $ y $, og betegne $ \ hat {y} = x \ \ hat {\ beta} $. Således

$ y = \ hat {y} + \ hat {\ epsilon} $

Fra et geometrisk perspektiv har vi tre vektorer. $ y $, $ \ hat {y} $ og $ \ hat {\ epsilon} $. En lille tanke antyder, at vi skal vælge $ \ hat {\ beta} $, så tre vektorer ligner den nedenfor: alt tekst http://a.imageshack.us/img19/9524/intuitionlinearregressi.png

Med andre ord skal vi vælge $ \ beta $ således at vinklen mellem $ x \ \ beta $ og $ \ hat {\ epsilon} $ er 90 0 sup >.

Så hvor meget variation i $ y $ har vi forklaret med denne projektion af $ y $ på vektoren $ x $. Da data er middelcentreret, er variansen i $ y $ lig med ($ y_1 ^ 2 + y_2 ^ 2 $), hvilket er kvadratet for afstanden mellem det punkt, der er repræsenteret af punktet $ y $ og oprindelsen. Variationen i $ \ hat {y} $ er på samme måde afstanden fra punktet $ \ hat {y} $ og oprindelsen og så videre.

Ved den Pythagoras sætning har vi:

$ y ^ 2 = \ hat {y} ^ 2 + \ hat {\ epsilon} ^ 2 $

Derfor er andelen af ​​variansen forklaret med $ x $ $ \ frac {\ hat {y} ^ 2} {y ^ 2} $. Bemærk også, at $ cos (\ theta) = \ frac {\ hat {y}} {y} $. og wiki fortæller os, at den geometriske fortolkning af korrelation er, at korrelation er lig med cosinus for vinklen mellem de middelcentrerede vektorer.

Derfor har vi det krævede forhold:

(Korrelation) 2 = Andel af variation i $ y $ forklaret med $ x $.

Håber det hjælper.

Jeg sætter pris på dit forsøg på at hjælpe, men desværre gjorde det bare tingene 10 gange værre. Indfører du virkelig trigonometri for at forklare r ^ 2? Du er alt for smart til at være en god lærer!
Jeg troede, at du ville vide, hvorfor korrelation ^ 2 = R ^ 2. Under alle omstændigheder hjælper forskellige måder at forstå det samme koncept på, eller i det mindste er det mit perspektiv.
ars
2010-08-09 21:49:45 UTC
view on stackexchange narkive permalink

Applet Regression By Eye kan være til nytte, hvis du prøver at udvikle noget intuition.

Det lader dig generere data og gætte derefter en værdi for R , som du derefter kan sammenligne med den aktuelle værdi.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 2.0-licens, den distribueres under.
Loading...