Spørgsmål:
Analyse med komplekse data, noget andet?
bill_e
2013-07-31 11:50:29 UTC
view on stackexchange narkive permalink

Sig for eksempel, at du laver en lineær model, men dataene $ y $ er komplekse.

$ y = x \ beta + \ epsilon $

Mit datasæt er komplekse, som i alle numrene i $ y $ har formen $ (a + bi) $. Er der noget proceduremæssigt anderledes, når man arbejder med sådanne data?

Jeg spørger, fordi du ender med at få komplekse kovariansmatricer og teststatistikker, der er komplekse værdsatte ..

Har du brug for at bruge et konjugat transponer i stedet for transponer, når man laver mindste kvadrater? er en kompleks værdsat kovarians meningsfuld?

Overvej komplekst tal som to separate variabler, og fjern på den måde i fra alle dine ligninger. Ellers bliver det et mareridt ...
Har du nogen oplysninger om $ x $ eller $ \ beta $?
@Sashkello Hvilket "mareridt"? Dimensionerne halveres, når du bruger komplekse tal, så det er uden tvivl en * forenkling. * Desuden har du forvandlet en * bivariat * DV til en * univariat * DV, hvilket er en kæmpe fordel. PeterRabbit: ja, konjugerede transponeringer er nødvendige. Den komplekse kovariansmatrix er eremitisk positiv-bestemt. Ligesom den virkelige modstykke har den stadig positive reelle egenværdier, som behandler spørgsmålet om meningsfuldhed.
@whuber Det giver ikke mening for mig overhovedet at gå ind i komplekse tal, hvis problemet er som vist. Det er ikke enklere at håndtere komplekse tal - ellers ville der slet ikke være et spørgsmål her. Ikke alt fungerer fint med komplekse tal, og det er ikke en ligetil ændring, hvis du ikke ved hvad du laver. At transformere dette problem i det virkelige rum er * ækvivalent *, og du kan anvende alle de forskellige statistiske teknikker uden at bekymre dig, om det fungerer eller ikke i et komplekst rum.
Tak whuber. Dataene (y) kommer oprindeligt i komplekse. Kan du give en reference? Hvis du gør det, flytter jeg dit svar som svaret. Du adresserede dybest set det, jeg havde brug for at vide, men jeg vil gerne have noget, jeg kan citere .. (Jeg har ikke rigtig fundet noget!) Tak!
Også tak sashkello. Kan du også give en reference? Hvorfor har du disse synspunkter?
@sashkello Jeg håber, at mit svar ændrer dig. Hvis du ikke er overbevist, bedes du tilbyde din løsning til sammenligning.
@whuber Godt svar og god forklaring. Jeg vil sige, så snart du kommer over transformationen fra den ene til den anden, er det virkelig ikke svært ...
Svaret ligger i, at kompleks differentiering følger samme regler som reel differentiering. Ændringen i transponere for at konjugere transponere er den eneste forskel, da den gennemsnitlige kvadratiske fejl i komplekse variabler er defineret som $ \ mathrm {trace} E (x-y) (x-y) ^ * $ af den åbenlyse grund til at få reelle værdier langs diagonalen.
Fire svar:
whuber
2013-08-01 20:08:17 UTC
view on stackexchange narkive permalink

Sammendrag

Generaliseringen af ​​mindste kvadraters regression til komplekse værdiansatte variabler er ligetil, bestående primært af erstatning af matrixtransponer med konjugattransponer i de sædvanlige matrixformler. Et kompleks -værdig regression svarer dog til en kompliceret multivariat multipel regression, hvis løsning ville være meget sværere at opnå ved hjælp af standardmetoder (reel variabel). Når den komplekse værdi model er meningsfuld, anbefales det derfor stærkt at bruge kompleks aritmetik til at opnå en løsning. Dette svar inkluderer også nogle foreslåede måder til at vise dataene og præsentere diagnostiske plots af pasformen.


For at gøre det nemmere, lad os diskutere tilfældet med almindelig (univariat) regression, som kan skrives

$$ z_j = \ beta_0 + \ beta_1 w_j + \ varepsilon_j. $$

Jeg har lov til at navngive den uafhængige variabel $ W $ og den afhængige variabel $ Z $, som er konventionelle (se f.eks. Lars Ahlfors, Kompleks analyse ). Alt, hvad der følger, er ligetil at udvide til multipel regressionsindstilling.

Fortolkning

Denne model har en let visualiseret geometrisk fortolkning: multiplikation med $ \ beta_1 $ vil omskalere $ w_j $ ved modulus af $ \ beta_1 $ og drej det omkring oprindelsen ved argumentet $ $ beta_1 $. Efterfølgende oversætter tilføjelsen af ​​$ \ beta_0 $ resultatet med dette beløb. Effekten af ​​$ \ varepsilon_j $ er at "jittere" den oversættelse lidt. Således er regression af $ z_j $ på $ w_j $ på denne måde et forsøg på at forstå samlingen af ​​2D-punkter $ (z_j) $ som stammer fra en konstellation af 2D-punkter $ (w_j) $ via en sådan transformation, der giver mulighed for nogle fejl i processen. Dette er illustreret nedenfor med figuren med titlen "Fit as a Transformation."

Bemærk, at omskalering og rotation ikke bare er nogen lineær transformation af planet: de udelukker f.eks. skæve transformationer. Således er denne model ikke den samme som en bivariat multipel regression med fire parametre.

Almindelige mindste kvadrater

For at forbinde den komplekse sag med den virkelige sag, lad os skrive

$ z_j = x_j + i y_j $ for værdierne for den afhængige variabel og

$ w_j = u_j + i v_j $ for værdierne for den uafhængige variabel.

Desuden skal parametrene skrives

$ \ beta_0 = \ gamma_0 + i \ delta_0 $ og $ \ beta_1 = \ gamma_1 + i \ delta_1 $.

Hver af de nye termer, der introduceres, er naturligvis ægte, og $ i ^ 2 = -1 $ er imaginær, mens $ j = 1, 2, \ ldots, n $ indekserer dataene.

OLS finder $ \ hat \ beta_0 $ og $ \ hat \ beta_1 $, der minimerer summen af ​​kvadrater af afvigelser,

$$ \ sum_ {j = 1} ^ n || z_j - \ venstre (\ hat \ beta_0 + \ hat \ beta_1 w_j \ højre) || ^ 2 = \ sum_ {j = 1} ^ n \ venstre (\ bar z_j - \ venstre (\ bar {\ hat \ beta_0} + \ bar {\ hat \ beta_1} \ bar w_j \ højre) \ højre) \ venstre (z_j - \ venstre (\ hat \ beta_0 + \ hat \ beta_1 w_j \ højre) \ højre). $$

Formelt er dette identisk med den sædvanlige matrixformulering: sammenlign det med $ \ left (z - X \ beta \ right) '\ left (z - X \ beta \ right). $ Den eneste forskel, vi finder er, at transponere af designmatrixen $ X '$ erstattes af konjugat transponere $ X ^ * = \ bar X' $. Derfor er den formelle matrixløsning

$$ \ hat \ beta = \ left (X ^ * X \ right) ^ {- 1} X ^ * z. $$

På samme tid, for at se hvad der kan opnås ved at kaste dette til et rent virkeligt variabelt problem, kan vi skrive OLS-målet ud med hensyn til de reelle komponenter:

$ $ \ sum_ {j = 1} ^ n \ venstre (x_j- \ gamma_0- \ gamma_1u_j + \ delta_1v_j \ højre) ^ 2 + \ sum_ {j = 1} ^ n \ venstre (y_j- \ delta_0- \ delta_1u_j- \ gamma_1v_j \ højre) ^ 2. $$

Dette repræsenterer åbenbart to sammenkædede virkelige regressioner: den ene regresserer $ x $ på $ u $ og $ v $, den anden regresserer $ y $ på $ u $ og $ v $; og vi kræver, at $ v $ -koefficienten for $ x $ er den negative af $ u $ -koefficienten for $ y $ og $ u $ -koefficienten for $ x $ svarer til $ v $ -koefficienten for $ y $. Desuden, fordi total firkanterne for rester fra de to regressioner skal minimeres, vil det normalt ikke være tilfældet, at et sæt koefficienter giver det bedste skøn for $ x $ eller $ y $ alene. Dette bekræftes i nedenstående eksempel, som udfører de to reelle regressioner hver for sig og sammenligner deres løsninger med den komplekse regression.

Denne analyse gør det klart, at omskrivning af den komplekse regression med hensyn til de reelle dele (1 ) komplicerer formlerne, (2) tilslører den enkle geometriske fortolkning, og (3) vil kræve en generaliseret multivariat multipel regression (med ikke-trivielle korrelationer blandt variablerne) for at løse. Vi kan gøre det bedre.

Eksempel

Som et eksempel tager jeg et gitter med $ w $ -værdier på integrale punkter nær oprindelsen i det komplekse plan. Til de transformerede værdier tilføjes $ w \ beta $ med fejl, der har en bivariat Gaussisk fordeling: især er de reelle og imaginære dele af fejlene ikke uafhængige.

Det er vanskeligt at tegne den sædvanlige spredningsdiagram af $ (w_j, z_j) $ for komplekse variabler, fordi den vil bestå af punkter i fire dimensioner. I stedet kan vi se scatterplot-matrixen for deres virkelige og imaginære dele.

Scatterplot matrix

Ignorer pasformen for nu og se på de øverste fire rækker og fire venstre kolonner: disse vises dataene. Det cirkulære gitter på $ w $ er tydeligt øverst til venstre; den har $ 81 $ point. Spredningsdiagrammerne for komponenterne i $ w $ mod komponenterne i $ z $ viser klare sammenhænge. Tre af dem har negative sammenhænge; kun $ y $ (den imaginære del af $ z $) og $ u $ (den reelle del af $ w $) er positivt korreleret.

For disse data er den sande værdi af $ \ beta $ $ (- 20 + 5i, -3/4 + 3/4 \ sqrt {3} i) $. Det repræsenterer en udvidelse med $ 3/2 $ og en rotation mod uret på 120 grader efterfulgt af oversættelse af $ 20 $ enheder til venstre og $ 5 $ enheder op. Jeg beregner tre tilpasninger: den komplekse mindste firkantede løsning og to OLS-løsninger til $ (x_j) $ og $ (y_j) $ separat, til sammenligning.

  Fit Intercept Slope (s) True -20 + 5 i -0,75 + 1,30 iComplex -20,02 + 5,01 i -0,83 + 1,38 iReal kun -20,02 -0,75, -1,46 Kun imaginært 5,01 1,30, -0,92  

Det vil altid være tilfældet at den virkelige eneste aflytning er enig med den reelle del af den komplekse aflytning og den imaginære eneste aflytning er enig med den imaginære del af den komplekse aflytning. Det er imidlertid tydeligt, at de eneste reelle og imaginære skråninger hverken er enige med de komplekse hældningskoefficienter eller med hinanden, nøjagtigt som forudsagt.

Lad os se nærmere på resultaterne af komplekset passe. For det første giver et plot af restprodukter os en indikation af deres bivariate Gaussiske fordeling. (Den underliggende fordeling har marginale standardafvigelser på $ 2 $ og en korrelation på $ 0,8 $.) Derefter kan vi plotte størrelsen på restprodukterne (repræsenteret af størrelsen på de cirkulære symboler) og deres argumenter (repræsenteret af farver nøjagtigt som i den første plot) mod de monterede værdier: dette plot skal se ud som en tilfældig fordeling af størrelser og farver, som det gør.

Residual plot

Endelig kan vi skildre pasformen på flere måder. Tilpasningen dukkede op i de sidste rækker og kolonner i scatterplot-matrixen ( q.v. ) og kan være værd at se nærmere på dette punkt. Nedenfor til venstre er pasningerne tegnet som åbne blå cirkler, og pile (der repræsenterer resterne) forbinder dem til dataene, vist som faste røde cirkler. Til højre vises $ (w_j) $ som åbne sorte cirkler udfyldt med farver svarende til deres argumenter; disse er forbundet med pile til de tilsvarende værdier på $ (z_j) $. Husk at hver pil repræsenterer en udvidelse med $ 3/2 $ omkring oprindelsen, rotation med $ 120 $ grader og oversættelse med $ (- 20, 5) $ plus den bivariate guassiske fejl.

Fit as transformation

Disse resultater, plottene og de diagnostiske plotter antyder alle, at den komplekse regressionsformel fungerer korrekt og opnår noget andet end separate lineære regressioner af de reelle og imaginære dele af variablerne.

Kode

R -koden til oprettelse af data, tilpasninger og plot vises nedenfor. Bemærk, at den aktuelle løsning af $ \ hat \ beta $ opnås i en enkelt kodelinje. Yderligere arbejde - men ikke for meget af det - ville være nødvendigt for at opnå den sædvanlige mindste kvadraters output: varians-kovariansmatrixen for pasformen, standardfejl, p-værdier osv.

  ## Syntetiser data. # (1) den uafhængige variabel` w`. # w.max <- 5 # Max omfang af de uafhængige værdier w <- expand.grid (seq (- w.max, w.max), seq (-w.max, w.max)) w <- kompleks (real = w [[1]], imaginær = w [[2]]) w <- w [Mod (w) < = w.max] n <- længde (w) ## (2) den afhængige variabel `z`. # beta <- c (-20 + 5i, kompleks (argument = 2 * pi / 3, modul = 3/2)) sigma <- 2; rho <- 0,8 # Parametre for fejlfordelingsbiblioteket (MASS) # mvrnormset.seed (17) e <- mvrnorm (n, c (0,0), matrix (c (1, rho, rho, 1) * sigma ^ 2 , 2)) e <- kompleks (real = e [, 1], imaginær = e [, 2])
z <- as.vector ((X <- cbind (rep (1, n), w))% *% beta + e) ​​## Tilpas modellerne. # print (beta, cifre = 3) print (beta.hat <- løse (Conj (t (X))% *% X, Conj (t (X))% *% z), cifre = 3) print (beta.r <- coef (lm (Re (z) ~ Re (w) + Im (w))), cifre = 3) print (beta.i <- coef (lm (Im (z) ~ Re (w) + Im (w))), cifre = 3) ## Vis nogle diagnostik. # par (mfrow = c (1,2)) res <- as.vector (z - X% *% beta.hat) passer til <- z - ress <- sqrt (Re (middel (Conj (res)) * res))) col <- hsv ((Arg (res) / pi + 1) / 2, .8, .9) størrelse <- Mod (res) / splot (res, pch = 16, cex = størrelse, col = col, main = "Residuals") plot (Re (fit), Im (fit), pch = 16, cex = size, col = col, main = "Residuals vs. Fitted") plot (Re (c (z, fit)), Im (c (z, fit)), type = "n", main = "Rester som Fit --> Data", xlab = "Real", ylab = "Imaginary") punkter (Re (fit) , Im (fit), col = "Blå") punkter (Re (z), Im (z), pch = 16, col = "Red") pile (Re (fit), Im (fit), Re (z) , Im (z), col = "Grå", længde = 0,1) col.w <- hsv ( (Arg (w) / pi + 1) / 2, .8, .9) plot (Re (c (w, z)), Im (c (w, z)), type = "n", main = " Passer som en transformation ", xlab =" Real ", ylab =" Imaginary ") punkter (Re (w), Im (w), pch = 16, col = col.w) point (Re (w), Im (w )) punkter (Re (z), Im (z), pch = 16, col = col.w) pile (Re (w), Im (w), Re (z), Im (z), col = "# 00000030 ", længde = 0,1) ## Vis dataene. # Par (mfrow = c (1,1)) par (cbind (w.Re = Re (w), w.Im = Im (w), z.Re = Re (z), z.Im = Im (z), fit.Re = Re (fit), fit.Im = Im (fit)), cex = 1/2)  
Jeg havde et opfølgningsspørgsmål om estimatoren $ \ hat {\ beta} $ og dens kovarians. Når jeg løser mit problem med komplekse $ y $, har min estimators kovariansmatrix (som jeg estimerer ved hjælp af fit rest) reelle og imaginære dele. Jeg er ikke sikker på, hvordan dette fungerer. Gælder den imaginære del af kovariansen kun om den imaginære del af estimatoren (den samme for den virkelige del)? Hvis jeg vil plotte CI'er, er jeg ikke sikker på, hvordan jeg skal gøre dette ... Har de imaginære og virkelige dele af estimatoren den samme CI? Ville det være muligt at medtage lidt info om dette i din forklaring? Tak skal du have!
Hvis alt blev beregnet korrekt, vil kovariansen stadig være positiv-bestemt. Dette indebærer især, at når du bruger den til at beregne kovariansen af ​​enten den reelle del eller den imaginære del af en variabel, får du et positivt tal, så alle CI'er vil være veldefinerede.
Cov-matrix er positiv semidefinit, men jeg gætter på, hvad jeg er forvirret over, er hvor du siger: "når du bruger den til at beregne kovariansen af ​​enten den reelle del eller den imaginære del af en variabel". Jeg antog, at når jeg ville beregne et CI, ville det have en reel og imag-del, som ville svare til den reelle og imag-del af et element af $ \ hat {\ beta} $. Dette ser dog ikke ud til at være tilfældet. Ved du hvorfor det er?
Hvis jeg også beregner værdier til teststatistik, får jeg tal som f.eks. 3 + .1 * i. Til dette forventede jeg, at antallet ikke skulle have nogen imaginær del. Er dette normalt? Eller et tegn på, at jeg laver noget forkert?
Når du beregner teststatistikker med komplekse tal, skal du forvente at få komplekse resultater! Hvis du har en matematisk grund til, at statistikken skal være reel, skal beregningen være fejlagtig. Når den imaginære del er virkelig lille i forhold til den rigtige del, er det sandsynligvis akkumuleret flydende punktfejl, og det er normalt sikkert at dræbe den (`zapsmall` i` R`). Ellers er det et tegn på, at noget er fundamentalt forkert.
Ok, så jeg beregnede dit eksempel i matlab (så med et andet frø) og får kun reelle tal i beta-kovariansen. Jeg beregner denne kovarians som $ \ frac {res ^ {*} res} {80} (X ^ {*} X) ^ {- 1} $. Mit 95% konfidensinterval på skæringsperioden $ \ hat {\ beta} $ er: -19.9867 - 4.8903i +/- .5586. For hældningsperioden får jeg: -0,7183 - 1,2333i +/- 0,1550. Hvordan skal dette fortolkes? Jeg forventer en bundet, der er kompleks. Gør jeg på en eller anden måde separate grænser for de ægte og imaginære dele? Jeg er ikke sikker på, hvad der er galt ... Måske kan en hurtig redigering af din løsning løse dette?
Undskyld for at være en smerte, så meget tak for din hjælp!
Let skrivefejl i: z <- as.vector ((X <- cbind (rep (1, n), x))% *% beta + e) ​​Jeg mener, at x skal være w.
@Glen_b Tak! Jeg foretog din foreslåede ændring, kørte koden igen fra starten, og den fungerede korrekt. Jeg har redigeret dette svar i overensstemmelse hermed.
At gøre regression i komplekse rum synes også at gøre harmonisk analyse af tidevand lettere at håndtere.
@Whuber, Du har ikke medtaget nogen faseoplysninger, så hvordan differentierer du mindst kompleks med almindelige mindste kvadrater?Hvad er forskellen?
@Ali-fasen er iboende i komplekse tal.Udgiver du en kommentar som svar på grund af de lave rep-point?
Jeg tror, du mangler nogle komponenter i det mest generelle tilfælde, og jeg tilføjede et svar.Du er velkommen til at kigge og give mig dine kommentarer.
Så noget som F eller p er ikke egnet i kompleks lm?
@Losses Jeg kommenterede dette i sidste afsnit.
bill_e
2013-09-20 03:20:10 UTC
view on stackexchange narkive permalink

Efter en god lang google sesh fandt jeg nogle relevante oplysninger om, hvordan problemet blev forstået på en alternativ måde. Det viser sig, at lignende problemer er noget almindelige i statistisk signalbehandling. I stedet for at starte med en Gaussisk sandsynlighed, der svarer til en lineær mindste firkant for ægte data, starter man med en:

http://en.wikipedia.org/wiki/Complex_normal_distribution

Specifikt, hvis du kan antage, at fordelingen af ​​din estimator $ \ hat {\ beta} $ er multivariat normal, så i tilfælde af komplekse data man ville bruge den komplekse normale. Beregningen af ​​covariansen for denne estimator er lidt anderledes og gives på wiki-siden.

Lærebogen af ​​Giri, Multivariate Statistical Analysis, dækker også dette.

JimB
2019-09-29 10:34:15 UTC
view on stackexchange narkive permalink

Dette spørgsmål er kommet op igen på Mathematica StackExchange, og mit svar / udvidede kommentar der er, at @whubers fremragende svar skal følges.

Mit svar her er et forsøg på at udvide @whubers svar lidt ved at gøre fejlstrukturen lidt mere eksplicit. Den foreslåede estimator for mindste kvadrat er, hvad man ville bruge, hvis den bivariate fejlfordeling har en nul korrelation mellem de reelle og imaginære komponenter. (Men de genererede data har en fejlkorrelation på 0,8.)

Hvis man har adgang til et symbolsk algebra-program, kan noget af rodet ved at konstruere maksimale sandsynlighedsestimatorer for parametrene (både de "faste" effekter og kovariansstrukturen) elimineres. Nedenfor bruger jeg de samme data som i @whubers svar og konstruerer de maksimale sandsynlighedsestimater ved at antage $ \ rho = 0 $ og derefter ved at antage $ \ rho \ neq0 $ . Jeg har brugt Mathematica men jeg formoder, at ethvert andet symbolsk algebra-program kan gøre noget lignende. (Og jeg har først sendt et billede af koden og output efterfulgt af den faktiske kode i et tillæg, da jeg ikke kan få Mathematica -koden til at se ud som den skal ved blot at bruge tekst.)

Data and least squares estimator

Nu for de maksimale sandsynlighedsestimater forudsat $ \ rho = 0 $ ...

maximum likelihood estimates assuming rho is zero

Vi ser, at de maksimale sandsynlighedsestimater, der antager, at $ \ rho = 0 $ matcher perfekt med de samlede estimater for mindste kvadrater.

Lad nu dataene bestemme et skøn for $ \ rho $ :

Maximum likelihood estimates including rho

Vi ser, at $ \ gamma_0 $ og $ \ delta_0 $ er stort set identiske, uanset om vi tillad estimering af $ \ rho $ . Men $ \ gamma_1 $ er meget tættere på den værdi, der genererede dataene (selvom slutninger med en stikprøvestørrelse på 1 ikke skal betragtes som endelige for at sige det mildt) og loggen over sandsynligheden er meget højere.

Mit pointe i alt dette er, at modellen, der passer, skal gøres helt eksplicit, og at symbolske algebra-programmer kan hjælpe med at lindre rodet. (Og selvfølgelig antager de maksimale sandsynlighedsestimatorer en bivariat normalfordeling, som estimaterne med mindst kvadrat ikke antager.)

Appendiks: Den fulde Mathematica kode

(* forudsigelig variabel *) w = {0 - 5 I, -3 - 4 I, -2 - 4 I, -1 - 4 I, 0 - 4 I, 1 - 4 I, 2-4 I, 3-4 I, -4 - 3 I, -3 - 3 I, -2 - 3 I, -1 - 3 I, 0 - 3 I, 1-3 I, 2 - 3 I, 3 - 3 I, 4 - 3 I, -4 - 2 I, -3 - 2 I, -2 - 2 I, -1 - 2 I, 0 - 2 I, 1 - 2 I, 2 - 2 I, 3 - 2 I, 4 - 2 I, -4 - 1 I, -3 - 1 I, -2 - 1 I, -1 - 1 I, 0 - 1 I, 1 - 1 I, 2 - 1 I, 3 - 1 I, 4 - 1 I, -5 + 0 I, -4 + 0 I, -3 + 0 I, -2 + 0 I, -1 + 0 I, 0 + 0 I, 1 + 0 I, 2 + 0 I, 3 + 0 I, 4 + 0 I, 5 + 0 I, -4 + 1 I, -3 + 1 I, -2 + 1 I, -1 + 1 I, 0 + 1 I, 1 + 1 I, 2 + 1 I, 3 + 1 I, 4 + 1 I, -4 + 2 I, -3 + 2 I, -2 + 2 I, -1 + 2 I, 0 + 2 I, 1 + 2 I, 2 + 2 I, 3 + 2 I, 4 + 2 I, -4 + 3 I, -3 + 3 I, -2 + 3 I, -1 + 3 I, 0 + 3 I, 1 + 3 I, 2 + 3 I, 3 + 3 I, 4 + 3 I, -3 + 4 I, -2 + 4 I, -1 + 4 I, 0 + 4 I, 1 + 4 I, 2 + 4 I, 3 + 4 I, 0 + 5 I}; (* Tilføj en "1" til skæringspunktet *) w1 = Transponere [{ConstantArray [1 + 0 I, længde [w]], w}]; z = {-15,83651 + 7,23001 I, -13,45474 + 4,70158 I, -13,63353 + 4,84748 I, -14,79109 + 4,33689 I, -13,63202 + 9,75805 I, -16,42506 + 9,54179 I, -14,54613 + 12,53215 I, -13,55975 + 14,91680 I, -12,64551 + 2.56503 I, -13.55825 + 4.44933 I, -11.28259 + 5.81240 I, -14.14497 + 7.18378 I, -13.45621 + 9,51873 I, -16,21694 + 8,62619 I, -14,95755 + 13.24094 I, -17.74017 + 10.32501 I, -17.23451 + 13,75955 I, -14,31768 + 1,82437 I, -13,68003 + 3.50632 I, -14.72750 + 5.13178 I, -15.00054 + 6.13389 I, -19.85013 + 6.36008 I, -19.79806 + 6,70061 I, -14,87031 + 11,41705 I, -21,51244 + 9,99690 I, -18,78360 + 14,47913 I, -15,19441 + 0,49289 I, -17,26867 + 3,65427 I, -16,34927 + 3.75119 I, -18.58678 + 2.38690 I, -20.11586 + 2,69634 I, -22,05726 + 6,01176 I, -22,94071 + 7,75243 I, -28,01594 + 3,21750 I, -24,60006 + 8.46907 I, -16.78006 - 2.66809 I, -18.23789 - 1,90286 I, -20,28243 + 0,47875 I, -18,37027 + 2,46888 I, -21,29372 + 3,40504 I, -19,80125 + 5,76661 I, -21,28269 + 5,57369 I, -22,05546 + 7.37060 I, -18.92492 + 10.18391 I, -18.13950 + 12,51550 I, -22,34471 + 10,37145 I, -15,05198 + 2,45401 I, -19,34279 - 0,23179 I, -17,37708 + 1,29222 I, -21,34378 - 0,00729 I, -20,84346 + 4,99178 I, -18,01642 + 10,78440 I, -23,08955 + 9.22452 I, -23.21163 + 7.69873 I, -26.54236 + 8.53687 I, -16.19653 - 0.36781 I, -23.49027 - 2,47554 I, -21,39397 - 0,05865 I, -20,02732 + 4.10250 I, -18.14814 + 7.36346 I, -23.70820 + 5.27508 I, -25.31022 + 4.32939 I, -24.04835 + 7,83235 I, -26,43708 + 6,19259 I, -21,58159 - 0,96734 I, -21,15339 - 1,06770 I, -21,88608 - 1,66252 I, -22,26280 + 4,00421 I, -22,37417 + 4,71425 I, -27,54631 + 4,83841 I, -24,39734 + 6,47424 I, -30,37850 + 4,07676 I, -30,30331 + 5.41201 I, -28.99194 - 8.45105 I, -24.05801 + 0,35091 I, -24,43580 - 0,69305 I, -29,71399 - 2.71735 I, -26.30489 + 4.93457 I, -27.16450 + 2,63608 I, -23,40265 + 8,76427 I, -29,56214 - 2,69087 I}; (* whubers mindste kvadratestimater *) {a, b} = Invers [ConjugateTranspose [w1] .w1] .ConjugateTranspose [w1] .z (* {-20.0172 + 5.00968 \ [ImaginaryI], - 0.830797 + 1.37827 \ [ImaginaryI]} *) (* Opdel i de ægte og imaginære komponenter *) x = Re [z]; y = Im [z]; u = Re [w]; v = Im [w]; n = Længde [z]; (* Prøvestørrelse *) (* Konstruer de reelle og imaginære komponenter i modellen *) (* Dette er den rodede del, du sandsynligvis ikke vil gøre for ofte med papir og blyant *) model = \ [Gamma] 0 + I \ [Delta] 0 + (\ [Gamma] 1 + I \ [Delta] 1) (u + I v); modelR = tabel [ Re [ComplexExpand [model [[j]]]] /. Im [h_] -> 0 /. Re [h_] -> h, {j, n}]; (* \ [Gamma] 0 + u \ [Gamma] 1-v \ [Delta] 1 *) modelI = tabel [ Im [ComplexExpand [model [[j]]]] /. Im [h_] -> 0 /. Re [h_] -> h, {j, n}]; (* v \ [Gamma] 1 + \ [Delta] 0 + u \ [Delta] 1 *) (* Konstruer loggen over sandsynligheden, da vi estimerer parametrene forbundet med en bivariat normalfordeling *) logL = LogLikelihood [ BinormalDistribution [{0, 0}, {\ [Sigma] 1, \ [Sigma] 2}, \ [Rho]], Transponere [{x - modelR, y - modelI}]]; mle0 = FindMaximum [{logL /. {\ [Rho] -> 0, \ [Sigma] 1 -> \ [Sigma], \ [Sigma] 2 -> \ [Sigma]}, \ [Sigma] > 0}, {\ [Gamma] 0, \ [Delta] 0, \ [Gamma] 1, \ [Delta] 1, \ [Sigma]}] (* {-357.626, {\ [Gamma] 0 \ [Regel] -20.0172, \ [Delta] 0 \ [Regel] 5.00968, \ [Gamma] 1 \ [Regel] -0.830797, \ [Delta] 1 \ [Regel ] 1.37827, \ [Sigma] \ [Regel] 2.20038}} *) (* Antag nu, at vi ikke vil begrænse \ [Rho] = 0 *) mle1 = FindMaximum [{logL /. {\ [Sigma] 1 -> \ [Sigma], \ [Sigma] 2 -> \ [Sigma]}, \ [Sigma] > 0 && -1 < \ [Rho] < 1}, {\ [Gamma] 0, \ [Delta] 0, \ [Gamma] 1, \ [Delta] 1, \ [Sigma], \ [Rho]}] (* {-315.313, {\ [Gamma] 0 \ [Regel] -20.0172, \ [Delta] 0 \ [Regel] 5.00968, \ [Gamma] 1 \ [Regel] -0.763237, \ [Delta] 1 \ [Regel ] 1.30859, \ [Sigma] \ [Regel] 2.21424, \ [Rho] \ [Regel] 0.810525}} *)
Neil G
2017-04-10 16:31:22 UTC
view on stackexchange narkive permalink

Mens @whuber har et smukt illustreret og godt forklaret svar, synes jeg det er en forenklet model, der savner noget af det komplekse rums kraft.

Lineær mindste kvadraters regression på real svarer til følgende model med input $ w $, parametre $ \ beta $ og mål $ x $:

$$ z = \ beta_0 + \ beta_1 w + \ epsilon $$

hvor $ \ epsilon $ er normalt fordelt med nul middelværdi og en vis (typisk konstant) varians.

Jeg foreslår, at kompleks lineær regression defineres som følger:

$$ z = \ beta_0 + \ beta_1 w + \ beta_2 \ overline w + \ epsilon $$

Der er to store forskelle.

Først er der en ekstra grad af frihed $ \ beta_2 $, der tillader fasefølsomhed. Du vil måske ikke have det, men det kan du nemt have.

For det andet er $ \ epsilon $ en kompleks normalfordeling med middelværdi nul og noget varians og "pseudovarians".

Når vi går tilbage til den virkelige model, kommer den almindelige mindste kvadrat-løsning ud og minimerer tabet, hvilket er den negative log-sandsynlighed. For en normalfordeling er dette parabolen:

$$ y = ax ^ 2 + cx + d. $$

hvor $ x = z - (\ beta_0 + \ beta_1 w) $, $ a $ er fast (typisk), $ c $ er nul pr. model, og $ d $ betyder ikke noget, da tabsfunktioner er invariant under konstant tilsætning.

Tilbage til den komplekse model er den negative log-sandsynlighed \ begin {align} y = a {| x |} ^ 2 + \ Re ({bx ^ 2 + cx}) + d. \ end {align}

$ c $ og $ d $ er nul som før. $ a $ er krumning og $ b $ er "pseudo-krumning". $ b $ fanger anisotrope komponenter. Hvis $ \ Re $-funktionen generer dig, er en tilsvarende måde at skrive dette på \ begin {align} {\ begin {bmatrix} x- \ mu \\ \ overline {x- \ mu} \ end {bmatrix}} ^ H \ begin {bmatrix} s & u \\ \ overline {u} & \ overline {s} \ end {bmatrix} ^ {- 1} \! \ begin {bmatrix} x- \ mu \\ \ overline {x- \ mu} \ end {bmatrix} + d \ end {align} for et andet sæt parametre $ s, u, \ mu, d $. Her er $ s $ variansen og $ u $ er pseudovariansen. $ \ mu $ er nul i henhold til vores model.

Her er et billede af en kompleks normalfordelings tæthed:

The density of a complex univariate normal distribution

Bemærk, hvordan det er asymmetrisk.Uden parameteren $ b $ kan den ikke være asymmetrisk.

Dette komplicerer regressionen, selvom jeg er temmelig sikker på, at løsningen stadig er analytisk.Jeg løste det for tilfældet med et input, og jeg er glad for at transkribere min løsning her, men jeg har en fornemmelse af, at whuber måske løser den generelle sag.

Tak for dette bidrag.Jeg følger det dog ikke, fordi jeg ikke er sikker på (a) hvorfor du introducerer et kvadratisk polynom, (b) hvad du egentlig mener med "tilsvarende" polynom, eller (c) hvilken statistisk model du passer til.Ville du være i stand til at uddybe dem?
@whuber Jeg har omskrevet det som en statistisk model.Lad mig vide, hvis det giver mening for dig.
Tak: Det rydder op (+1).Din model er ikke længere en analytisk funktion af variablerne.Men fordi det er en analytisk funktion af parametrene, kan den opfattes som en multipel regression på $ z $ mod de * to * komplekse variabler $ w $ og $ \ bar w $.Derudover tillader du $ \ epsilon $ at have en mere fleksibel distribution: det forstås ikke i min løsning.Så vidt jeg kan se, svarer din løsning til at konvertere alt til dets reelle og imaginære dele og gennemføre en multivariat multipel * reel * regression.
@whuber Højre, med de to ændringer, jeg foreslog, tror jeg, det er som du sagde multivariat ægte regression.$ \ Beta_2 $ kan fjernes for at begrænse transformationen, som du beskriver i din løsning.Imidlertid har pseudo-krumningsudtrykket nogle realistiske praktiske anvendelser såsom at forsøge at gøre regression for at forudsige en vekselstrøm med en ikke-nul jordtilstand?
Med hensyn til at det er en analytisk funktion, er din hverken analytisk, fordi dit tab er paraboloid $ | x | ^ 2 $, som ikke er analytisk.Sadlen $ x ^ 2 $ er analytisk, men i sig selv kan den ikke minimeres, da den adskiller sig.
Det er sandt, Neil, at tabet ikke er analytisk, men * løsningen * er analytisk.
@whuber Åh, tak, jeg kan se, hvad du mener.Jeg er nødt til at tænke lidt mere over det.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...