Robust afsløring af outlier i økonomiske tidsserier

jilles de wit

2010-08-04 15:02:35 UTC

view on stackexchange narkive permalink

Jeg leder efter nogle robuste teknikker til at fjerne outliers og fejl (uanset årsagen) fra økonomiske tidsseriedata (dvs. tickdata).

Tick-by-tick finansielle tidsseriedata er meget rodet. Den indeholder enorme (tids) huller, når børsen er lukket, og gør store spring, når børsen åbner igen. Når børsen er åben, introducerer alle mulige faktorer handler på prisniveauer, der er forkerte (de opstod ikke) og / eller ikke repræsentative for markedet (en stigning på grund af et forkert indtastet bud eller for eksempel pris). Dette papir fra tickdata.com (PDF) gør et godt stykke arbejde med at skitsere problemet, men tilbyder få konkrete løsninger.

De fleste papirer, jeg kan finde online, der nævner dette problem, ignorerer enten det (tickdata antages filtreret) eller inkluderer filtrering som en del af en enorm handelsmodel, der skjuler alle nyttige filtreringstrin.

Er nogen klar over mere dybtgående arbejde på dette område?

Opdatering: dette spørgsmål virker ens på overfladen, men:

Økonomisk tidsserie er (i det mindste på krydsniveauet) ikke-periodisk.
Åbningseffekten er et stort problem, fordi du ikke bare kan bruge den sidste dags data som initialisering, selvom du virkelig gerne vil (fordi du ellers ikke har noget). Eksterne begivenheder kan medføre, at den nye dags åbning adskiller sig dramatisk både på absolut niveau og i volatilitet fra den foregående dag.
vildt uregelmæssig hyppighed af indgående data. Nær åben og tæt på dagen kan mængden af datapunkter / sekund være 10 gange højere end gennemsnittet i løbet af dagen. Det andet spørgsmål handler om regelmæssigt samplede data.
"Outliers" i finansielle data udviser nogle specifikke mønstre, der kunne detekteres med specifikke teknikker, der ikke er anvendelige på andre domæner, og jeg er på udkig efter dem specifikke teknikker.
I mere ekstreme tilfælde (f.eks. flashnedbrud) kan outliers udgøre mere end 75% af dataene over længere intervaller (> 10 minutter). Derudover indeholder den (høje) frekvens af indgående data nogle oplysninger om situationens afvigende aspekt.

Jeg tror ikke, det er en duplikat på grund af dataens art. Problemet, der blev diskuteret i det andet spørgsmål, vedrørte regelmæssigt observerede tidsserier med lejlighedsvise outliers (i det mindste sådan fortolkede jeg det). Karakteren af tick-by-tick-data vil føre til forskellige løsninger på grund af udvekslingsåbningseffekten.

mulig duplikat af [Simpel algoritme til online-outlier-detektion af en generisk tidsserie] (http://stats.stackexchange.com/questions/1142/simple-algorithm-for-online-outlier-detection-of-a-generic-time -serier) Dette spørgsmål foreslås lukket som en duplikat. Kan du venligst fortælle os det på metatråden, hvis og hvordan din kontekst er forskellig fra det spørgsmål, jeg linkede?

@Rob Men udvekslingsåbningseffekten bestemmer kun, hvornår du skal køre algoritmen. Det grundlæggende spørgsmål forbliver det samme. Selv i netværksdata har du 'kontoråbningseffekt', hvor trafikken topper, så snart et kontor åbner. I det mindste skal OP'en linke til det spørgsmål, scanne svarene der og forklare, hvorfor løsningerne der ikke fungerer, så et passende svar kan sendes til dette spørgsmål.

Jeg er enig med @Rob. Denne form for data kan udgøre unikke udfordringer, så dette er ikke en duplikat.

Dette spørgsmål kan i sidste ende blive betjent bedre her på grund af dets domænespecificitet: http://area51.stackexchange.com/proposals/117/quantitative-finance

Jeg tror, det hører hjemme her. Spørgsmålet drejer sig om at analysere uregelmæssigt fordelte, meget støjende tidsserier. Har du kigget på "En introduktion til højfrekvent finansiering" af Dacorogna, Olsen og en flok andre? Eller papirerne fra de samme forfattere?

Jeg så det andet svar og fulgte Robs argumentation. Jeg ændrede mit spørgsmål for at tackle de forskelle, jeg ser.

@jilles Jeg kan ikke se nogen ændringer på dit spørgsmål. Gemte du dine redigeringer? Det kan hjælpe, hvis du også sender et link til det spørgsmål og angiver ændringerne i dit spørgsmål med noget som 'Rediger'.

Jeg har Olsen-bogen, og den behandler ikke udvekslingens åbne / lukke spørgsmål.

@Srikant: færdig, @PeterR: kender du noget specifikt papir fra de forfattere, der behandler dette spørgsmål?

Jeg ønsker, at der er en måde at fortryde min nære stemme på! Jeg tror, det er klart nu, at det ikke er en duplikat.