Mehrere Fragen zu statistischen Finanzzeitreihenmodellen von „maschinell lernenden Personen“

Um zu erklären, warum ich diese dummen Fragen habe, muss ich sagen, dass ich eher eine Person bin, die maschinell lernt. Während ich an Problemen in der Bioinformatik arbeitete, war alles in Ordnung. Als ich Wörter wie "Regression" oder "Kurtosis und Schiefe" hörte, lächelte ich im ersten Fall nur, im zweiten Fall machte ich nur eine ungeschickte Bewegung mit meinen Schultern und versuchte etwas zu sagen wie: "Ja, ich habe davon gehört und sogar weiß, wie man es berechnet, aber warum um alles in der Welt wird es jemand brauchen? ".

Die Situation hat sich dramatisch geändert, als ich vor einem Jahr nur zum Spaß versuchte, mein Wissen über maschinelles Lernen auf einige finanzielle Zeitreihen anzuwenden.

Ich begann mit der Idee, ein Bayes'sches Netzwerk aus Signalen zu erstellen, die von "technischen" "Analyse" "Indikatoren" geliefert werden. Idee fehlgeschlagen. Es war auch etwas erfreulich, auf dieser Site mindestens zwei Themen mit ähnlicher Idee zu finden (die neuronale Netze anstelle von Bayesian verwendeten).

Als nächstes konnte ich nach viel Mühe eine Mischung aus kNN und symbolischer Regression erstellen, die ich von 2000 bis 2006 an 1-Stunden-Daten trainierte und an Daten von 2007 testete. Dieses Modell lieferte tatsächlich einen großen Gewinn. Aber als ich es dann auf die neuesten Daten anwendete, stellte ich fest, dass die Genauigkeit aufgrund wirtschaftlicher Krysis dramatisch gesunken ist und nicht mehr funktioniert, weil sich auf dem Markt etwas geändert hat und ich mehr neue Daten benötige, die ich nur in einem 2-5 erhalten kann Jahre.

Nun, viele Sachen wurden später ausprobiert und wenn diese ganze Sache als "nur zum Spaß" begann, war es kein Spaß mehr. Bis ich Online-Vorträge von Ruey S. Tsay über ARIMA, GARCH, TAR und alle anderen völlig neuen Dinge für mich gefunden habe.

Grundsätzlich habe ich eine ganz neue Welt gefunden und es macht mir wirklich Spaß. Im Moment konnte ich mein erstes ARIMA-Modell anpassen und es dann optimieren, um den Effektivfehler zweimal zu reduzieren, indem ich mir ACF, PACF, das Spielen mit Saisonalität usw. ansah.

Nun, der Spaß ist zurück, ich hatte viel davon und ich erwarte noch mehr. Aber ich hatte einige Fragen und fand diese großartige Seite. Lesen Sie hier fast alle Themen zu ARIMA und anderen verwandten Techniken sowie viele andere allgemeine Themen zu ähnlichen Ansätzen. Sicher wird mehr lesen. Ich denke immer noch in einem Geistesrahmen des Ansatzes des maschinellen Lernens, der zu vielen dummen Fragen führt, auf die ich die meisten auf dieser Seite finde.

Nach dieser langen Einführung sind hier meine verbleibenden dummen Fragen:

Während es beim Ansatz des maschinellen Lernens mehr darum geht, "Muster" in Daten zu finden, steht dies im Widerspruch zu statistischen Modellen für Finanzzeitreihen, die weitgehend die Random-Walk-Theorie verwenden (was die Existenz von Mustern zumindest fragwürdig macht). Mir ist klar, dass es eine sehr naive und falsche Beschreibung ist, aber ich versuche zu sagen, dass die meisten Techniken des maschinellen Lernens im konzeptionellen Widerspruch zur statistischen Herangehensweise an das Problem stehen. Ich sage nicht, dass ein Ansatz besser ist, ich sage nur, dass sie Widersprüche haben. Ist das richtig und wie groß ist dieser Widerspruch?
Die Beschreibung und Idee des TAR-Modells, das für mich wie eine Verbindung von maschinellem Lernen mit Statistiken aussieht, hat mir sehr gut gefallen. Dies ist ein Modell, das ich als nächstes ausprobieren möchte, nachdem ich GARCH zu meiner ARIMA hinzugefügt habe. Aber ich habe einige Fragen dazu:
- TAR verwendet definitiv sowohl statistische als auch maschinelle Lernansätze. Wenn ich meine erste Frage bedenke, gibt es dann keinen Fehler beim Versuch, Muster für eine Reihe von Modellen zu finden, die im Wesentlichen auf einer Theorie basieren, die Muster ausschließt? Oder ist es nur eine Idee, wie zwei Modelle, die unterschiedliche Aspekte desselben Problems untersuchen, zu einem noch leistungsstärkeren Modell kombiniert werden können?
- Wenn Sie auf dieser Website nach dem Schlüsselwort "ARIMA" suchen, werden 15 Seiten mit Themen angezeigt, während es für TAR nur eine gibt. Auch warum haben die Leute aufgehört, AR anzuwenden? Warum nicht diese Idee für komplexere Modelle (wie ARIMA) erweitern? Liegt es daran, dass TAR keine erwartete Verbesserung gegenüber AR ergab?
Ich weiß, dass MCMC-Methoden und andere Dinge des maschinellen Lernens derzeit mit statistischen Modellen gemischt werden. Ich persönlich bin auch ein großer Fan von Hidden Markov Models und Conditional Random Fields. Kennen Sie Mischungen dieser Methoden mit statistischen Modellen?

machine-learning arima finance

— GrayR
quelle

Beachten Sie, dass es bei ARIMA in der Regel eher um Repräsentation als um ein anderes Modell als AR geht. Normalerweise können Sie ein ARIMA-Modell in ein AR-Modell umordnen. Ich denke, Sie stoßen auf Schätzungsprobleme, wenn Sie dies nicht können (ich bin mir ziemlich sicher, dass nicht invertierbare Zeitreihenmodelle schwer zu passen sind). Viele Ihrer Unterschiede liegen eher in der Terminologie als in den Modellen. Ein bedingtes Zufallsfeld ist im Grunde ein gemischtes Modell. Versteckte Markov-Modelle sind Kalman-Filtern usw. usw. sehr ähnlich

— Wahrscheinlichkeitslogik

@probabilityislogic danke für deinen Kommentar. Ja, mir ist klar, dass es viele Gemeinsamkeiten gibt. Es ist sehr verlockend für mich, nur zu sagen, dass der gesamte statistische Ansatz der gleiche ist wie das maschinelle Lernen, einfach wie einige neue Methoden. Ich habe einfach Angst, dass ich in einem solchen Fall etwas Wichtiges verpassen werde, also konzentriere ich mich auf Unterschiede, um mehr über die richtigen und falschen Methoden zur Anwendung dieser Modelle zu erfahren. Es fällt mir leicht, die Ähnlichkeit zu erkennen, es sind Unterschiede, die ich leider übersehen muss.

— GrayR

In Bezug auf Frage 1 befassen sich Zeitreihen nicht hauptsächlich mit zufälligen Spaziergängen. Stationäre Zeitreihen haben eine Korrelationsstruktur, die beispielsweise in ARMA-Modellen modelliert wird. Die Zeitreihenanalyse untersucht auch periodische Effekte und Trends (wir nennen diese Zeitreihen nicht stationär). Das Suchen nach Mustern in Daten ist nicht mit Statistiken kompatibel, solange erkannt wird, dass es ein Muster + eine zufällige Komponente gibt und die zufällige Komponente bei der Analyse berücksichtigt werden muss. In Bezug auf Frage 2 verstehe ich nicht, warum Sie TAR eine Mischung aus maschinellem Lernen und Statistik nennen. Ich sehe es nur als ein komplizierteres Zeitreihenmodell, das einen Schwellenwertparameter und 2 AR-Modelle enthält. Ich sehe auch keinen großen Unterschied zwischen maschinellem Lernen und Statistik. Ich betrachte maschinelles Lernen als Teil der statistischen Mustererkennung / -klassifizierung, die in den Bereich der multivariaten Analyse fällt. Es scheint mir, dass TAR leicht erweitert werden könnte, um einen Schwellenwert für ein ARMA-Modell festzulegen. Ich weiß nicht, ob es versucht wurde oder warum es möglicherweise nicht entwickelt wurde. Vielleicht kann jemand, der mit solchen Zeitreihenmodellen arbeitet, diese Frage beantworten.

— Michael R. Chernick
quelle