Spørgsmål:
Modellering af langsgående data, hvor tidseffekten varierer i funktionel form mellem individer
Jeromy Anglim
2010-09-17 12:12:27 UTC
view on stackexchange narkive permalink

Context◄:

Forestil dig, at du havde en langsgående undersøgelse, der målte en afhængig variabel (DV) en gang om ugen i 20 uger på 200 deltagere. Selvom jeg er generelt interesseret i, inkluderer typiske DV'er, som jeg tænker på, jobpræstationer efter ansættelse eller forskellige trivselsforanstaltninger efter en klinisk psykologisk intervention.

Jeg ved, at modellering på flere niveauer kan bruges til at modellere forholdet mellem tid og DV. Du kan også tillade koefficienter (f.eks. Aflytninger, skråninger osv.) At variere mellem individer og estimere deltagernes særlige værdier. Men hvad nu hvis man ved visuel inspektion af data finder ud af, at forholdet mellem tid og DV er en af ​​følgende:

  • forskellige i funktionel form (måske nogle er lineære og andre er eksponentielle eller nogle har en diskontinuitet)
  • forskellig i fejlvarians (nogle individer er mere flygtige fra det ene tidspunkt til det andet)

Spørgsmål :

  • Hvad ville være en god måde at nærme sig modelleringsdata på denne måde?
  • Hvilke tilgange er specifikt gode til at identificere forskellige typer relationer og kategorisere individer med hensyn til deres type?
  • Hvilke implementeringer findes der i R for sådanne analyser?
  • Er der nogen henvisninger til, hvordan man gør dette: lærebog eller faktisk anvendelse?
Fem svar:
chl
2010-09-17 13:59:36 UTC
view on stackexchange narkive permalink

Jeg vil foreslå at se på følgende tre retninger:

  • langsgående klyngedannelse : dette er ikke overvåget, men du bruger k-betyder tilgang baseret på Calinsky-kriteriet til vurdering af kvaliteten af ​​partitioneringen (pakke kml og referencer inkluderet i onlinehjælpen); så dybest set hjælper det ikke med at identificere specifik form til individuel tidsforløb, men bare adskille homogen evolutionsprofil
  • en slags latent vækstkurve der tegner sig for heteroscedasticitet: mit bedste gæt ville være at se på de omfattende referencer omkring MPlus software, især FAQ og mailing. Jeg har også hørt om multiplikativ heteroscedastisk model med tilfældig effekt (prøv at google omkring disse nøgleord). Jeg finder disse papirer ( 1, 2) interessante, men jeg kiggede ikke nærmere på dem. Jeg opdaterer med referencer til neuropsykologisk vurdering en gang tilbage til mit kontor.
  • funktionel PCA ( fpca pakke), men det kan være værd at se på funktionel dataanalyse

Andre referencer (lige gennemsøgt i farten):

Tak. Tanken om at bruge en klyngeprocedure var opstået for mig. Jeg forestiller mig, at udfordringen ville være at fange og veje de mulige kurvefunktioner på individuelt niveau tilstrækkeligt på en teoretisk meningsfuld måde. Jeg kigger på, hvordan det fungerer i kml.
Nå, det fungerer ret godt, selvom grænsefladen er forfærdelig (og jeg kender fyren, der bygger den :) - Jeg brugte den for to måneder siden til at adskille kliniske grupper baseret på individuelle profiler på udviklingsmålinger (Brunet-Lézine).
Her er en anden primær reference for FDA: http://www.psych.mcgill.ca/misc/fda/
Jeg fandt denne introduktion til FDA-link af Ramsay (2008), især tilgængelig http://gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
ars
2010-09-18 07:56:42 UTC
view on stackexchange narkive permalink

Jeg vil anbefale at se på et par papirer af Heping Zhang ved hjælp af adaptive splines til modellering af langsgående data:

Derudover kan du se siden MASAL for software inklusive en R-pakke.

Andy W
2010-09-18 08:45:57 UTC
view on stackexchange narkive permalink

Det ser ud til, at vækstblandingsmodeller måske har potentiale til at give dig mulighed for at undersøge din fejlvarians. ( PDF her). (Jeg er ikke sikker på, hvad multiplikative heteroscedastiske modeller er, men jeg bliver bestemt nødt til at tjekke dem ud.).

Latente gruppebaserede banemodeller er blevet rigtig populære på det seneste inden for kriminologi. Men mange mennesker tager simpelthen for givet, at grupper faktisk eksisterer, og nogle kloge undersøgelser har påpeget, at du vil finde grupper, selv i tilfældige data. Også for at bemærke Nagins gruppebaserede modelleringsmetode tillader du ikke at vurdere din fejl (og ærligt talt har jeg aldrig set en model, der ligner en diskontinuitet).

Selvom det ville være svært med 20 tidspunkter , til sonderende formål at skabe enkle heuristikker til at identificere mønstre kunne være nyttige (f.eks. altid lav eller altid høj, variationskoefficient). Jeg forestiller mig sparklines i et regneark eller parallelle koordinater, men jeg tvivler på, at de ville være nyttige (jeg har ærligt talt aldrig nogensinde set et parallel koordinat plot, der er meget oplysende).

Held og lykke

Godt punkt om latente grupper. Jeg har set flere anvendelser af latent klasseanalyse & klyngeanalyse, hvor det ser ud til bare at skære en kontinuerlig variabel int-kategorier så lav og høj (http://jeromyanglim.blogspot.com/2009/09/cluster-analysis-and -single-dominant.html). Imidlertid har jeg nogle langsgående data på individuelt niveau, der visuelt ser ud som om de kommer fra kategorisk forskellige datagenereringsprocesser (f.eks. Altid høj, altid lav, gradvis stigende, lav-derefter-brat-stigning osv.) Og inden for kategorier der er mere kontinuerlig variation af parametre.
@Jeromy, Jeg tror ikke, at det arbejde, jeg citerede, ville afskrække folk fra at bruge sådanne metoder til at identificere latente grupper. Jeg vil sige, at pointen med arbejdet er, at du ikke kan bruge sådanne metoder til udelukkende at udlede eksistensen af ​​grupper, fordi du altid vil finde grupper, selv i tilfældige data. Det er op til mere subjektiv fortolkning, om de grupper, du finder, er ægte eller simpelthen er artefakter af metoden. Du kunne identificere nogle logiske teorier, der genererer sådanne processer og derefter se, om de identificerede grupper passer ind i disse teorier.
Jeromy Anglim
2014-09-19 05:59:30 UTC
view on stackexchange narkive permalink

Fire år efter at have stillet dette spørgsmål, har jeg lært et par ting, så måske skal jeg tilføje et par ideer.

Jeg synes, at bayesisk hierarkisk modellering giver en fleksibel tilgang til dette problem.

Software : Værktøjer som jags, stan, WinBugs osv. potentielt kombineret med deres respektive R-interface-pakker (f.eks. rjags, rstan) gør det lettere at specificere sådanne modeller.

Varierende inden for personfejl: Bayesianske modeller gør det let at specificere den interne persons fejlvarians som en tilfældig faktor, der varierer mellem mennesker.

For eksempel du kunne model score $ y $ på deltagere $ i = 1, ..., n $ på tidspunkter $ j = 1, ... J $ som

$$ y_ {ij} \ sim N (\ mu_i, \ sigma ^ 2_i) $$$$ \ mu_i = \ gamma $$$$ \ gamma \ sim N (\ mu_ \ gamma, \ sigma ^ 2_ \ gamma) $$$$ \ sigma_i \ sim \ rm {Gamma} (\ alpha, \ beta) $$

Således kan standardafvigelsen for hver person modelleres som en gammafordeling. Jeg har fundet dette at være en vigtig parameter i mange psykologiske domæner, hvor folk varierer i, hvor meget de varierer over tid.

Latente klasser af kurver: Jeg har ikke udforsket denne idé som meget endnu, men det er relativt ligetil at specificere to eller flere mulige datagenereringsfunktioner for hver enkelt og derefter lade den bayesiske model vælge den mest sandsynlige model for et givet individ. Således vil du typisk få posteriore sandsynligheder for hver enkelt med hensyn til hvilken funktionel form, der beskriver individets data.

Som en skitse af en idé til en model kan du have noget i retning af følgende:

$$ y_ {ij} \ sim N (\ mu_ {ij}, \ sigma ^ 2) $$$$ \ mu_ {ij} = \ gamma_i \ lambda_ {ij} ^ {(1)} + (1 - \ gamma_i) \ lambda_ {ij} ^ {(2)} $$$$ \ lambda_ {ij} ^ {(1)} = \ theta ^ {(1)} _ {1i} + \ theta ^ {(1)} _ {2i} \ exp (- \ theta ^ {(1)} _ {3i }) $$$$ \ lambda_ {ij} ^ {(2)} = \ theta ^ {(2)} _ {1i} + \ theta ^ {(2)} _ {2i} x_ {ij} + \ theta ^ {(2)} _ {3i} x ^ 2_ {ij} $$$$ \ gamma_i = \ rm {Bernoulli} (\ pi_i) $$

Hvor $ x_ {ij} $ er tid, og $ \ lambda_ {ij} ^ {(1)} $ repræsenterer forventede værdier for en eksponentiel model med tre parametre, og $ \ lambda_ {ij} ^ {(2)} $ repræsenterer forventede værdier for en kvadratisk model. $ \ pi_i $ repræsenterer sandsynligheden for, at modellen vælger $ \ lambda_ {ij} ^ {(1)} $.

Jeg har også flyttet til den Bayesiske ramme og har læst om at bruge Gaussiske processer til tidsserie-analyse af usikre funktionsformer.Stadig uklart, hvordan det kan anvendes i tilfælde af hierarkiske data (se min ubesvarede forespørgsel her: https://groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Dav Clark
2011-08-17 02:58:31 UTC
view on stackexchange narkive permalink

John Fox har et fantastisk bilag tilgængeligt online ved hjælp af nlme til at se på længdedata. Det kan være nyttigt for dig:

http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf

Der er mange gode ting der (og Fox 'bøger er generelt ret gode!).

Brudt link.Det er dog tilgængeligt fra forfatterens webside [her] (http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/appendix/Appendix-Mixed-Models.pdf)


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 2.0-licens, den distribueres under.
Loading...