Kan datarensning forværre resultaterne af statistisk analyse?

Spørgsmål:

DrWho

2011-03-22 12:56:30 UTC

view on stackexchange narkive permalink

En stigning i antallet af tilfælde og dødsfald forekommer under epidemier (pludselig stigning i antal) på grund af en virussirkulation (som West Nile Virus i USA i 2002) eller faldende resistens hos mennesker eller forurening af mad eller vand eller stigning i antallet af myg. Disse epidemier vil præsentere sig som outliers, som kan forekomme hvert 1 til 5 år. Ved at fjerne disse afvigelser fjerner vi bevis for epidemier, som udgør en vigtig del af prognoser og sygdomsforståelse.

Er datarengøring nødvendig under håndtering af afvigelser forårsaget af epidemier?

Vil det forbedre resultaterne eller forværre resultaterne af statistisk analyse?

Fem svar:

probabilityislogic

2011-03-22 14:24:21 UTC

view on stackexchange narkive permalink

Jeg vil personligt ikke kalde dette "datarensning". Jeg tænker på datarensning mere i form af dataredigering - rydde op i uoverensstemmelser i datasættet (f.eks. Har en rekord rapporteret en alder på 1000, eller en person i alderen 4 er enlig forælder osv.).

Tilstedeværelsen af en reel effekt i dine data gør det ikke "rodet" (tværtimod vil tilstedeværelsen af reelle effekter gøre det rigt) - selvom det kan gøre din matematiske opgave mere involveret. Jeg vil foreslå, at dataene "renses" på denne måde, hvis det er den eneste mulige måde at få en forudsigelse på. Hvis der er en mulig måde, der ikke smider information, så brug den.

Det lyder som om du kan have gavn af en form for cyklisk analyse, forudsat at du siger, at denne effekt kommer med jævne mellemrum (slags som en "konjunkturcyklus").

Fra min synsvinkel, hvis du ser på at forudsige noget, kan fjernelse af en ægte effekt fra denne kilde kun gøre dine forudsigelser værre. Dette skyldes, at du effektivt har "smidt" netop de oplysninger, som du ønsker at forudsige!

Det andet punkt er, at det kan være vanskeligt at bestemme, hvor meget et sæt dødsfald skyldtes epidemien, og hvor meget der var forårsaget af de almindelige udsving.

I statistisk terminologi lyder epidemien sådan, fra dit synspunkt er det en "gener" for, hvad du rent faktisk vil analysere. Så du er ikke særlig interesseret i det, men du skal på en eller anden måde redegøre for det i din analyse. En "hurtig og beskidt" måde at gøre dette på i en regressionsindstilling er at inkludere en indikator for epidemien år / perioder som en regressorvariabel. Dette giver dig et gennemsnitligt skøn over effekten af epidemier (og antager implicit, at påvirkningen er den samme for hver epidemi). Denne fremgangsmåde fungerer dog kun til at beskrive effekten, fordi din regressionsvariabel i prognoser er ukendt (du ved ikke, hvilke perioder i fremtiden der vil være epidemiske).

En anden måde at redegøre for epidemien på er at bruge en blandingsmodel med to komponenter: en model til epidemidelen og en model til den "almindelige" del. Modellen fortsætter derefter i to trin: 1) klassificer en periode som epidemi eller normal, derefter 2) anvend den model, som den blev klassificeret til.

(+1) gode forslag, selvom flere ikke-så-snavsede tricks sandsynligvis er mulige.

+1; For eftertiden vil jeg komme med følgende kommentar: Du siger "at fjerne en ægte effekt ... kan kun gøre dine forudsigelser værre". I sammenhæng har du helt klart ret, men i det generelle tilfælde er dette ikke nødvendigvis sandt. (Jeg tænker på 'bias-varians tradeoff', som er en stor ting i forudsigelig modellering.) Igen tror jeg, du har ret her, og jeg ved, at du kender til bias-varians-kompromiset; Jeg vil nævne det for alle, der kommer på tværs af dette svar i fremtiden og muligvis fejlagtigt fortolker dette udsagn.

Dmitrij Celov

2011-03-22 13:51:11 UTC

view on stackexchange narkive permalink

Det afhænger faktisk af formålet med din forskning. Efter min mening kan der være flere:

Du vil forstå, hvad der er de typiske faktorer, der forårsager tilfælde og dødsfald, og som ikke er påvirket af epidemiske perioder, og faktorer der forårsager epidemier (så du er interesseret i typiske ikke-kraftige større sandsynligheder) - i dette tilfælde skal du selvfølgelig fjerne epidemiperioderne fra dataene, da de er ved at undersøge outliers for hvad du gerne vil konkludere
Det kan være en god idé at medtage epidemiske ændringer i dine modeller (modeller, der skifter regime, f.eks. gode links og modelforslag fra samfundet er velkomne her), fordi du vil vide sandsynligheden for, at epidemien opstår (og også hvor længe det varer), for at teste stabiliteten og til prognose - i dette tilfælde ekskluderer du ikke epidemiske perioder, men søger efter mere komplicerede modeller i stedet for at gå efter hammer-økonometrisk værktøj $ OLS $ eller noget lignende
Dit primære mål er at opdage epidemisk perio ds og overvåge dem i realtid - det er et specielt felt inden for økonometri, som en række af mine kolleger arbejder med på Vilnius Universitet (bestemt vil du gerne have en masse epidemiske observationer at håndtere)

Så hvis dit primære mål er noget i retning af 2, vil rydning af data medføre forkerte konklusioner om de fremtidige prognoser, dvs. unøjagtige prognoser. Det er også rigtigt, at det andet tilfælde ikke nødvendigvis giver bedre prognoser, men du kunne i det mindste drage konklusioner om sandsynligheden for epidemiske perioder og deres længde. Dette ER meget vigtigt for aktuarmatiske matematikere, så kan det være, at du er den?

Fantastisk og simpelt svar. Du har en mærkbar viden i en ung alder.

IrishStat

2011-03-22 16:18:37 UTC

view on stackexchange narkive permalink

"Datarensning" har til opgave at identificere, hvornår "vores love (model) ikke fungerer". Justering for outliers eller unormale datapunkter tjener til at give os mulighed for at få "robuste estimater" af parametrene i den aktuelle model, som vi underholder. Disse "outliers", hvis ubehandlet tillader en uønsket forvrængning i modelparametrene, da estimering er "drevet til at forklare disse datapunkter", der "ikke opfører sig i henhold til vores hypotese-model". Med andre ord er der en masse tilbagebetaling i form af forklaret Sum of Squares ved at fokusere på "skurkene". De empirisk identificerede punkter, der kræver rensning, bør nøje undersøges for potentielt at udvikle / foreslå årsagsfaktorer, der ikke er i den nuværende model. Den identificerede Level Shift i STATE1 for de data, du præsenterede i nedenstående spørgsmål, er et eksempel på "viden, der venter på at blive opdaget".

Hvordan vurderer man effekten af intervention i en stat i forhold til en anden ved hjælp af årlig dødsfald?

At gøre videnskab er at søge efter gentagne mønstre.

At opdage uregelmæssigheder er at identificere værdier, der ikke følger gentagne mønstre. Hvordan ville du ellers vide, at et punkt overtrådte den model? Faktisk skal processen med at vokse, forstå, finde og undersøge afvigende være iterativ. Dette er ikke en ny tanke.

Sir Frances Bacon skrev i Novum Organum for omkring 400 år siden og sagde: ”Fejl i naturen, sport og monstre korrigerer forståelsen med hensyn til almindelige ting og afslører generelle former . For den, der kender naturens veje, vil lettere bemærke hendes afvigelser; og på den anden side vil den, der kender afvigelser, mere nøjagtigt beskrive hendes måder. ”

Vi ændrer vores regler ved at observere, når de nuværende regler mislykkes.

Hvis de identificerede outliers virkelig er impulser og har lignende effekter (størrelse), foreslår vi følgende (citeret fra en anden plakat)

"En" hurtig og beskidt "måde at gøre dette på i en regressionsindstilling er at inkludere en indikator for epidemien år / perioder som en regressorvariabel. Dette giver dig et gennemsnitligt skøn over effekten af epidemier (og antager implicit påvirkningen er den samme for hver epidemi). Denne fremgangsmåde fungerer dog kun til at beskrive effekten, for i prognoser er din regressionsvariabel ukendt (du ved ikke, hvilke perioder i fremtiden der er epidemiske). "

Dette hvis kursus kræver, at de enkelte anomalier (pulsår) har lignende effekter. Hvis de adskiller sig, ville en portmanteau-variabel beskrevet ovenfor være forkert.

@IrishStat: Stor forklaring og et mindeværdigt tilbud. Du fortsatte din anciennitet og ekspertise. Kan du venligt udvide din erklæring "viden venter på at blive opdaget" med henvisning til mit tidligere spørgsmål http://stats.stackexchange.com/questions/8358/how-to-assess-effect-of-intervention-in-one-state -versus-en anden-bruger-årlig-cas

@DrWHO: Identifikationen af LEVEL SHIFT ved 2014, som afhjælpede et meget dårligt udseende restplot, er et eksempel på "viden, der venter på at blive opdaget", da den afslørede den tilsyneladende forsinkelse mellem en dato for ændring af politikken og dens fulde implementerings- / realiseringsdato. et permanent niveau (trin) skift blev fuldt ud realiseret i 2004 (år 11 af 17) afspejler de facto-datoen, hvor de jure-datoen var nogle få år før.

@IrishStat: Tak for afklaringen. Det er meget vanskeligt at overbevise beslutningstagere, læger og offentligheden om, at en bestemt behandling kan få drastiske ændringer i sygdomsudfaldet. Det tager årtier. Dette niveauskift blev set i 2004 afspejler forsinkelsen i at acceptere noget nyt. Er det bedre at forlade niveauskiftet eller behandle det som en outlier for beregningerne af sagsdødelighed i stat 1, mens man behandler spørgsmålet http://stats.stackexchange.com/questions/8358/how-to-assess-effect -af-intervention-i-en-tilstand-versus-en-anden-bruger-årlig-cas

min kommentar ovenfor skulle have været NIVEAU SKIFT 2004. Beklager forvirringen.

@DrWHO: Som svar på dit spørgsmål "Er det bedre at forlade niveauskiftet eller behandle det som en outlier til beregningerne af sags dødelighed i stat 1, mens man behandler spørgsmålet". Hvis du ikke behandler det, kan man simpelthen sige STATE1 havde en niveauskiftændring i 2004, mens STATE2 ikke gjorde det, så de er forskellige, men man kan ikke placere en sandsynlighed for denne erklæring. Efter behandling af STATE1 til Level Shift har man normaliseret dataene til en statusændring i 2004. De normaliserede data (rensede data) kan derefter sammenlignes med STATE2s normaliserede data uden tab af generalitet.

@IrushStat: Tak for de yderligere oplysninger.

schenectady

2011-03-22 18:25:29 UTC

view on stackexchange narkive permalink

For at give dig et generelt svar på dit spørgsmål, lad mig parafarisere en af mine gamle generelle ledere: Forskningsmulighederne findes i outliers af den model, du passer til.

Situationen ligner det eksperiment, der blev udført af min Robert Millikan til bestemmelse af ladningen af en elektron. Årtier efter at have vundet Nobelprisen for sit eksperiment blev hans noter undersøgt, og det blev fundet at han kastede et stort antal datapunkter ud, fordi de var uenige med de resultater, han ledte efter. Er det dårlig videnskab?

Hvis du finder et par afvigelser, skyldes det måske "statistiske afvigelser". Men hvis du finder mere end et par outliers, skal du undersøge dine data nærmere. Hvis du ikke kan tilskrive en årsag til abberationerne, forstår du ikke processen, og en statistisk model løser ikke dit problem. Formålet med en model er at opsummere en proces, modellen vil ikke magisk opsummere en proces, som eksperimentatoren ikke forstår.

Det er den menneskelige tendens. Robert Millikan var ingen undtagelse. Jeg er meget glad for, at så mange nye ting er blevet oplyst, og filosofien bag en statistisk model fremhæves.

Fomite

2011-08-16 12:35:00 UTC

view on stackexchange narkive permalink

En af de mest anvendte metoder til at finde epidemier i tilbagevendende data er faktisk at lede efter outliers - mange influenzaforskere fokuserer for eksempel primært på resterne af deres monterede modeller snarere end modellerne selv for at se steder, hvor "dag ud, dag ud" forudsigelser af modellen mislykkes - en af måderne, hvorpå modellen kan fejle, er med udseendet af en epidemi.

Det er dog vigtigt, at du skelner mellem jagt på outliers i dine resultater - sandsynligvis ikke den største idé nogensinde - og hvad de fleste mennesker omtaler som "datarensning". Her leder du efter afvigende ikke fordi de repræsenterer et statistisk problem, men fordi de rejser problemer med datakvaliteten.

For eksempel, i et datasæt jeg har, er der en variabel for sygdomsudbrud. For et emne er denne dato i november 1929. Tror jeg det er korrekt? Nej. Dette indikerer et datakvalitetsproblem, der skal løses - i dette tilfælde korrigeres datoen baseret på andre oplysninger om emnet. Denne type datarensning forbedrer aktivt kvaliteten af dine statistiske resultater.

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 2.0-licens, den distribueres under.

om - legalese