"Datarensning" har til opgave at identificere, hvornår "vores love (model) ikke fungerer". Justering for outliers eller unormale datapunkter tjener til at give os mulighed for at få "robuste estimater" af parametrene i den aktuelle model, som vi underholder. Disse "outliers", hvis ubehandlet tillader en uønsket forvrængning i modelparametrene, da estimering er "drevet til at forklare disse datapunkter", der "ikke opfører sig i henhold til vores hypotese-model". Med andre ord er der en masse tilbagebetaling i form af forklaret Sum of Squares ved at fokusere på "skurkene". De empirisk identificerede punkter, der kræver rensning, bør nøje undersøges for potentielt at udvikle / foreslå årsagsfaktorer, der ikke er i den nuværende model. Den identificerede Level Shift i STATE1 for de data, du præsenterede i nedenstående spørgsmål, er et eksempel på "viden, der venter på at blive opdaget".
Hvordan vurderer man effekten af intervention i en stat i forhold til en anden ved hjælp af årlig dødsfald?
At gøre videnskab er at søge efter gentagne mønstre.
At opdage uregelmæssigheder er at identificere værdier, der ikke følger gentagne mønstre. Hvordan ville du ellers vide, at et punkt overtrådte den model? Faktisk skal processen med at vokse, forstå, finde og undersøge afvigende være iterativ. Dette er ikke en ny tanke.
Sir Frances Bacon skrev i Novum Organum for omkring 400 år siden og sagde: ”Fejl i naturen, sport og monstre korrigerer forståelsen med hensyn til almindelige ting og afslører generelle former . For den, der kender naturens veje, vil lettere bemærke hendes afvigelser; og på den anden side vil den, der kender afvigelser, mere nøjagtigt beskrive hendes måder. ”
Vi ændrer vores regler ved at observere, når de nuværende regler mislykkes.
Hvis de identificerede outliers virkelig er impulser og har lignende effekter (størrelse), foreslår vi følgende (citeret fra en anden plakat)
"En" hurtig og beskidt "måde at gøre dette på i en regressionsindstilling er at inkludere en indikator for epidemien år / perioder som en regressorvariabel. Dette giver dig et gennemsnitligt skøn over effekten af epidemier (og antager implicit påvirkningen er den samme for hver epidemi). Denne fremgangsmåde fungerer dog kun til at beskrive effekten, for i prognoser er din regressionsvariabel ukendt (du ved ikke, hvilke perioder i fremtiden der er epidemiske). "
Dette hvis kursus kræver, at de enkelte anomalier (pulsår) har lignende effekter. Hvis de adskiller sig, ville en portmanteau-variabel beskrevet ovenfor være forkert.