Ich suche nach robusten Techniken, um Ausreißer und Fehler (aus welchen Gründen auch immer) aus finanziellen Zeitreihendaten (z. B. Tickdata) zu entfernen.
Tick-by-Tick-Finanzzeitreihendaten sind sehr unübersichtlich. Es enthält große (Zeit-) Lücken, wenn die Börse geschlossen wird, und macht große Sprünge, wenn die Börse wieder geöffnet wird. Wenn die Börse geöffnet ist, führen alle Arten von Faktoren dazu, dass Geschäfte auf falschen (nicht aufgetretenen) und / oder nicht für den Markt repräsentativen Niveaus getätigt werden (zum Beispiel aufgrund eines falsch eingegebenen Geld- oder Briefkurses). In diesem Artikel von tickdata.com (PDF) wird das Problem gut umrissen , es werden jedoch nur wenige konkrete Lösungen angeboten.
Die meisten Artikel, in denen dieses Problem erwähnt wird, ignorieren es entweder (die Tickdaten werden als gefiltert angenommen) oder schließen die Filterung als Teil eines riesigen Handelsmodells ein, das alle nützlichen Filterungsschritte verbirgt.
Ist jemandem eine vertiefende Arbeit in diesem Bereich bekannt?
Update: Diese Frage scheint an der Oberfläche ähnlich zu sein, aber:
- Finanzielle Zeitreihen sind (zumindest auf Tick-Ebene) nicht periodisch.
- Der Eröffnungseffekt ist ein großes Problem, da Sie die Daten des letzten Tages nicht einfach als Initialisierung verwenden können, obwohl Sie dies wirklich möchten (da Sie sonst nichts haben). Externe Ereignisse können dazu führen, dass sich die Eröffnung des neuen Tages sowohl in absoluten Zahlen als auch in Bezug auf die Volatilität vom Vortag dramatisch unterscheidet.
- Sehr unregelmäßige Häufigkeit eingehender Daten. Nahe dem Öffnen und Schließen des Tages kann die Anzahl der Datenpunkte / Sekunde 10-mal höher sein als der Durchschnitt des Tages. Die andere Frage befasst sich mit regelmäßig erfassten Daten.
- Die "Ausreißer" in Finanzdaten weisen einige spezifische Muster auf, die mit spezifischen Techniken erkannt werden könnten, die in anderen Bereichen nicht anwendbar sind, und ich suche teilweise nach diesen spezifischen Techniken.
- In extremeren Fällen (z. B. beim Flash-Crash) können die Ausreißer über längere Zeiträume (> 10 Minuten) mehr als 75% der Daten ausmachen. Darüber hinaus enthält die (hohe) Häufigkeit eingehender Daten einige Informationen zum Ausreißeraspekt der Situation.