Jeg har et massivt datasæt, der inkluderer omkring 5.000.000 point. Der er 4 uafhængige variabler og to stærkt korrelerede afhængige variabler.
Hvordan skal jeg lave regressionsanalysen?
@StephanKolassa har bedt mig om at lave et krydsvalideringseksperiment og bruge MAD som et mål for at vælge den bedste model blandt flere alternativer. Det er et meget flot forslag. Men problemet er, hvordan man får "flere alternative modeller"? hvilke metoder eller statistisk software anbefales? Tak!
Min uafhængige variabel er de interplanetære tilstandskomponenter, og den afhængige variabel er bredden af den aurorale ovale grænse.
Indtil videre er det specifikke forhold stadig ukendt i det fysiske princip. Hvad vi ønsker at gøre er at få en model fra de massive data, der viser, hvordan disse uafhængige variabler påvirker den afhængige variabel.