Jeg leder efter nogle robuste teknikker til at fjerne outliers og fejl (uanset årsagen) fra økonomiske tidsseriedata (dvs. tickdata).
Tick-by-tick finansielle tidsseriedata er meget rodet. Den indeholder enorme (tids) huller, når børsen er lukket, og gør store spring, når børsen åbner igen. Når børsen er åben, introducerer alle mulige faktorer handler på prisniveauer, der er forkerte (de opstod ikke) og / eller ikke repræsentative for markedet (en stigning på grund af et forkert indtastet bud eller for eksempel pris). Dette papir fra tickdata.com (PDF) gør et godt stykke arbejde med at skitsere problemet, men tilbyder få konkrete løsninger.
De fleste papirer, jeg kan finde online, der nævner dette problem, ignorerer enten det (tickdata antages filtreret) eller inkluderer filtrering som en del af en enorm handelsmodel, der skjuler alle nyttige filtreringstrin.
Er nogen klar over mere dybtgående arbejde på dette område?
Opdatering: dette spørgsmål virker ens på overfladen, men:
- Økonomisk tidsserie er (i det mindste på krydsniveauet) ikke-periodisk.
- Åbningseffekten er et stort problem, fordi du ikke bare kan bruge den sidste dags data som initialisering, selvom du virkelig gerne vil (fordi du ellers ikke har noget). Eksterne begivenheder kan medføre, at den nye dags åbning adskiller sig dramatisk både på absolut niveau og i volatilitet fra den foregående dag.
- vildt uregelmæssig hyppighed af indgående data. Nær åben og tæt på dagen kan mængden af datapunkter / sekund være 10 gange højere end gennemsnittet i løbet af dagen. Det andet spørgsmål handler om regelmæssigt samplede data.
- "Outliers" i finansielle data udviser nogle specifikke mønstre, der kunne detekteres med specifikke teknikker, der ikke er anvendelige på andre domæner, og jeg er på udkig efter dem specifikke teknikker.
- I mere ekstreme tilfælde (f.eks. flashnedbrud) kan outliers udgøre mere end 75% af dataene over længere intervaller (> 10 minutter). Derudover indeholder den (høje) frekvens af indgående data nogle oplysninger om situationens afvigende aspekt.