Vorhersagemodelle: Statistiken können das maschinelle Lernen unmöglich übertreffen? [geschlossen]


14

Ich verfolge derzeit ein Masterstudium mit Schwerpunkt Statistik / Ökonometrie. In meinem Master mussten alle Studenten 3 Monate lang recherchieren. Letzte Woche mussten alle Gruppen ihre Forschungen den restlichen Masterstudenten vorstellen.

Fast jede Gruppe führte für ihre Forschungsthemen statistische Modellierungen und maschinelle Lernmodelle durch, und jedes Mal, wenn Vorhersagen außerhalb der Stichprobe kamen, um über die einfachen maschinellen Lernmodelle zu sprechen, übertrafen sie die hoch entwickelten statistischen Modelle, an denen in den letzten drei Jahren alle sehr hart gearbeitet haben Monate. Unabhängig davon, wie gut die statistischen Modelle eines jeden sind, hat ein einfacher Zufallswald so gut wie immer weniger Fehler außerhalb der Stichprobe.

Ich habe mich gefragt, ob dies eine allgemein akzeptierte Beobachtung ist. Dass, wenn es um Prognosen außerhalb der Stichprobe geht, es einfach keine Möglichkeit gibt, ein einfaches Zufallswald- oder extremes Gradienten-Boosting-Modell zu übertreffen? Diese beiden Methoden sind mit R-Paketen sehr einfach zu implementieren, während alle statistischen Modelle, die jeder entwickelt hat, eine Menge Erfahrung, Wissen und Aufwand erfordern, um geschätzt zu werden.

Was denkst du darüber? Ist der einzige Vorteil von statistischen / ökonometrischen Modellen, den Sie interpretieren können? Oder waren unsere Modelle einfach nicht gut genug, um einfache zufällige Waldvorhersagen nicht signifikant zu übertreffen? Gibt es Papiere, die sich mit diesem Problem befassen?


5
Dies kann durchaus als "zu breit" abgeschlossen werden. (Hoffentlich nicht als "meinungsbasiert"!) Meine Meinung: Ich glaube nicht, dass es eine universelle Antwort gibt. Ich habe die Erfahrung gemacht, dass statistische Modelle besser sind, wenn weniger Beobachtungen vorliegen, da sich das Auferlegen einer Struktur gegenüber einem weitgehend modellfreien Ansatz verbessert. Umgekehrt sind RFs besser, wenn viele Beobachtungen vorliegen. ...
S. Kolassa - Wiedereinsetzung von Monica

4
... Die andere Frage ist, was genau und wie bewertet wurde. Wenn Punktvorhersagen angemessen bewertet wurden (Genauigkeitsmessungen können überraschend irreführend sein), ist dies eine andere Sache als bei Dichtevorhersagen. Statistische Modelle sind möglicherweise besser für Dichtevorhersagen geeignet, da Sie viel mehr Daten benötigen.
S. Kolassa - Wiedereinsetzung von Monica

1
@StephanKolassa: Ich denke, eine gute Antwort (oder eine Reihe von Antworten) auf diese Frage würde Gründe dafür beinhalten, warum es keine allgemeingültige Antwort gibt - theoretisch und praktisch -, wie die Prognoseleistung bewertet wird, wie man zwischen Statistik und Maschine unterscheidet Lernmethoden, welche Ziele es möglicherweise nicht vorhersehbar gibt und ein paar Dinge, an die ich nicht gedacht habe. Also ein breites Spektrum; aber meiner Meinung nach nicht allzu weit gefasst, und der Versuch, dies einzuschränken, könnte das Hervorheben nützlicher allgemeiner Punkte nur ausschließen.
Scortchi - Wiedereinsetzung von Monica

5
Was wir nicht wollen, ist eine Ansammlung von Anekdoten - ich fordere die Benutzer dringend auf, Löschantworten zu kennzeichnen, die nicht viel mehr sind als zB "Ich habe immer festgestellt, dass zufällige Wälder die logistische Regression schlagen", wie wortreich sie auch sein mögen. Wir können ein bisschen lockerer mit Kommentaren umgehen, aber lange Threads werden in den Chat verschoben.
Scortchi

14
Ich glaube nicht, dass es einen sinnvollen Unterschied zwischen Statistik und maschinellem Lernen gibt. Zum Beispiel war Leo Breiman, ein bekannter zufälliger Waldforscher, Professor für Statistik an der UC Berkeley. Im Zusammenhang mit Ihrer Anekdote war RF zwar besser als die anderen Modelle, die die Leute gepasst hatten, aber ich sehe keinen Grund dafür, dass dies im Allgemeinen zutrifft (siehe auch den Satz „Kein freies Mittagessen“). Vielleicht sagt dies mehr über den Datensatz (oder sogar die Schüler) aus als über die Methoden.
Sycorax sagt Reinstate Monica

Antworten:


20

Die statistische Modellierung unterscheidet sich vom maschinellen Lernen. Beispielsweise ist eine lineare Regression sowohl ein statistisches Modell als auch ein Modell des maschinellen Lernens. Wenn Sie also eine lineare Regression mit einer zufälligen Gesamtstruktur vergleichen, vergleichen Sie einfach ein einfacheres Modell für maschinelles Lernen mit einem komplizierteren. Sie sind nicht ein statistisches Modell zu einem Maschinenlernmodell zu vergleichen.

Die statistische Modellierung bietet mehr als nur Interpretation. es gibt tatsächlich ein Modell einiger Populationsparameter. Es hängt von einem großen Rahmen aus Mathematik und Theorie ab, der Formeln für Dinge wie die Varianz von Koeffizienten, die Varianz von Vorhersagen und das Testen von Hypothesen zulässt. Die potenzielle Ausbeute der statistischen Modellierung ist viel höher als beim maschinellen Lernen, da Sie aussagekräftige Aussagen zu Populationsparametern machen können, anstatt nur den Fehler beim Halten zu messen, aber es ist erheblich schwieriger, ein Problem mit einem statistischen Modell anzugehen.


1
So weit ich weiß, sagen Sie, dass Sie mit Statistiken mehr Vorteile erzielen, wie z. B. die Varianz der Koeffizienten, die Varianz der Vorhersagen und das Testen von Hypothesen. Glauben Sie jedoch, dass statistische Modelle die Modelle des maschinellen Lernens übertreffen können, wenn es nur um prädiktive Modellierung geht, dh um die Erstellung von Punktvorhersagen für bestimmte Antwortvariablen?
Dubvice

5
Dies ist die Antwort (+1!). Meiner Ansicht nach (und vielleicht auch von anderen) gibt es verschiedene Arten statistischer Analysen: beschreibende, inferentielle, prädiktive, explorative usw. Maschinelles Lernen würde meistens in die prädiktive Analyse fallen, und das meiste erlaubt es Ihnen nicht, inferentielle Analysen durchzuführen Behauptungen zu Dingen, also läuft alles darauf hinaus, "das richtige Werkzeug für den jeweiligen Job zu verwenden" (im Beispiel der linearen Regression kann es in allen Bereichen verwendet werden, z. B. das Schätzen von bedingten Erwartungen, was eine beschreibende Aufgabe ist).
Firebug

2
Dies klingt wie die Behauptung, dass statistische Standardmodellierung besser für die Inferenz (im Gegensatz zur Vorhersage) ist als maschinelles Lernen, was die Interpretierbarkeit des Modells verbessern kann. Wenn wir eine gewöhnliche Regression der kleinsten Quadrate mit einem tiefen neuronalen Netzwerk vergleichen, ist eine solche Behauptung zwar ein bisschen unscharf, da die ursprüngliche Frage speziell auf einen Zufallswald (einen guten ML-Algorithmus zur Inferenz) verweist.
Greenstick

2
Hier sind einige soliden Beweise aus der Zeitreihe Domäne , in denen statistische Modelle konsequent maschinelles Lernen schlagen Ansätze: Makridakis „Statistische und Machine Learning Prognosemethoden: Bedenken und Wege“ .
Richard Hardy

1
Das ist einfach die perfekte Antwort. Hier ist ein Beispiel: Angenommen, Sie haben ein Maß, das das Überleben von Patienten mit einer bestimmten Krankheit vorhersagt. Es gibt internationale Standards, um zu definieren, ob dieses Maß klinisch gültig ist (im Grunde genommen, wenn der Koeffizient bei einem univariaten oder multivariaten Modell von 0 mit einem p-Wert unter 5% abweicht). Obwohl ich absolut sicher bin, dass 99% der Zeit eine zufällige Gesamtstruktur mit ausreichenden Daten ein besseres Vorhersagemodell wäre.
Rémy Nicolle

5

Es ist falsch, die Frage so zu formulieren, wie Sie sie formuliert haben. Beispielsweise kann ein erheblicher Teil des maschinellen Lernens als statistisches Lernen bezeichnet werden . Ihr Vergleich ist also wie bei Äpfeln gegen Obstkuchen.

Ich gehe jedoch so vor, wie Sie es eingerahmt haben, und behaupte Folgendes: Wenn es um die Vorhersage geht, kann nichts ohne irgendeine Form von Statistik gemacht werden, da die Vorhersage von Natur aus Zufälligkeit (Ungewissheit) enthält. Bedenken Sie Folgendes: Trotz des großen Erfolgs des maschinellen Lernens in einigen Anwendungen Vorhersage des Vermögenspreises absolut nichts bewirken. Gar nichts. Warum? Denn in den meisten entwickelten liquiden Märkten sind die Vermögenspreise von Natur aus stochastisch.

Sie können den ganzen Tag lang maschinelles Lernen durchführen, um den radioaktiven Zerfall von Atomen zu beobachten und zu lernen, und es wird niemals in der Lage sein, die Zerfallszeit des nächsten Atoms vorherzusagen, einfach weil sie zufällig ist.

Als angehender Statistiker wäre es dumm von Ihrer Seite, das maschinelle Lernen nicht zu beherrschen, weil es eine der heißesten Anwendungen der Statistik ist, es sei denn, Sie wissen natürlich, dass Sie auf eine akademische Ausbildung gehen. Jeder, der wahrscheinlich in der Branche arbeiten wird, muss ML beherrschen. Es gibt überhaupt keine Feindseligkeit oder Konkurrenz zwischen Statistiken und ML-Massen. In der Tat, wenn Sie gerne programmieren, werden Sie sich im ML-Bereich wie zu Hause fühlen


2

Im Allgemeinen nicht, aber möglicherweise ja bei falscher Angabe. Das Problem, das Sie suchen, heißt Zulässigkeit. Eine Entscheidung ist zulässig, wenn ihre Berechnung nicht weniger riskant ist.

Alle Bayes'schen Lösungen sind zulässig und nicht-Bayes'sche Lösungen sind zulässig, sofern sie entweder in jeder Stichprobe mit einer Bayes'schen Lösung übereinstimmen oder an der Grenze liegen. Eine zulässige Frequentist- oder Bayes'sche Lösung schlägt immer eine ML-Lösung, es sei denn, sie ist ebenfalls zulässig. Nach alledem gibt es einige praktische Bemerkungen, die diese Aussage wahr, aber unvollständig machen.

Erstens muss der Prior für die Bayes'sche Option Ihr echter Prior sein und nicht irgendeine vorherige Verteilung, die verwendet wird, um einen Redakteur in einer Zeitschrift glücklich zu machen. Zweitens sind viele Frequentist-Lösungen unzulässig, und anstelle der Standardlösung sollte ein Schrumpfungsschätzer verwendet werden. Viele Menschen sind sich des Lemmas von Stein und seiner Auswirkungen auf Fehler außerhalb der Stichprobe nicht bewusst. Schließlich kann ML in vielen Fällen etwas robuster gegen Fehlspezifikationen sein.

Wenn Sie in Entscheidungsbäume und deren Cousins ​​in den Wäldern ziehen, wenden Sie keine ähnliche Methode an, es sei denn, Sie verwenden auch etwas Ähnliches wie ein Bayes-Netz. Eine Graphlösung enthält eine erhebliche Menge impliziter Informationen, insbesondere einen gerichteten Graphen. Wenn Sie einem probabilistischen oder statistischen Prozess Informationen hinzufügen, verringern Sie die Variabilität des Ergebnisses und ändern, was als zulässig angesehen wird.

Wenn Sie sich das maschinelle Lernen aus der Perspektive der Zusammensetzung von Funktionen ansehen, wird es lediglich zu einer statistischen Lösung, wobei jedoch Approximationen verwendet werden, um die Lösung nachvollziehbar zu machen. Für Bayes'sche Lösungen spart MCMC unglaublich viel Zeit, ebenso wie der Gradientenabstieg für viele ML-Probleme. Wenn Sie entweder einen exakten Posterior konstruieren müssten, um viele ML-Probleme zu integrieren, oder brachiale Gewalt anwenden, wäre das Sonnensystem seinem Hitzetod erlegen, bevor Sie eine Antwort erhalten.

Ich vermute, Sie haben ein falsch angegebenes Modell für diejenigen, die Statistiken verwenden oder unangemessene Statistiken. Ich unterrichtete eine Vorlesung, in der ich nachwies, dass Neugeborene aus dem Fenster schweben, wenn sie nicht angemessen gewickelt werden, und in der eine Bayes'sche Methode eine so radikale Leistung erbrachte, dass sich die Frequentist-Methode erwartungsgemäß als ausgeglichen erwies, während die Bayes'sche Methode das Geld der Teilnehmer verdoppelte . Jetzt habe ich die Statistik in der ersteren missbraucht und die Unzulässigkeit des Frequentist-Schätzers in der letzteren ausgenutzt, aber ein naiver Benutzer der Statistik konnte leicht tun, was ich tat. Ich habe sie nur extrem gemacht, um die Beispiele verständlich zu machen, aber ich habe absolut reale Daten verwendet.

Zufällige Wälder sind beständige Schätzer und scheinen bestimmten Bayes'schen Prozessen zu ähneln. Aufgrund der Verknüpfung mit Kernel-Schätzern können sie ziemlich eng sein. Wenn Sie einen wesentlichen Leistungsunterschied zwischen den Lösungstypen feststellen, liegt dem zugrunde liegenden Problem etwas zugrunde, das Sie missverstehen. Wenn das Problem von Belang ist, müssen Sie wirklich nach der Ursache des Unterschieds suchen, da dies möglicherweise auch der Fall ist Fall, dass alle Modelle falsch spezifiziert sind.


1

Viel maschinelles Lernen unterscheidet sich zumindest für einige Zwecke möglicherweise nicht so sehr vom P-Hacking.

Wenn Sie jedes mögliche Modell testen, um auf der Grundlage historischer Daten ein Modell mit der höchsten Vorhersagegenauigkeit (historische Vorhersage oder Vorhersage außerhalb der Gruppe) zu finden, bedeutet dies nicht unbedingt, dass die Ergebnisse dazu beitragen, die Vorgänge zu verstehen. Möglicherweise findet es jedoch mögliche Zusammenhänge, die eine Hypothese stützen können.

Das Motivieren bestimmter Hypothesen und das anschließende Testen mit statistischen Methoden kann sicherlich auch ähnlich gehackt werden.

Der Punkt ist jedoch, dass, wenn das Kriterium "höchste Vorhersagegenauigkeit basierend auf historischen Daten" ist, ein hohes Risiko besteht, in einem Modell, das man nicht versteht, überzuversichtlich zu sein, ohne tatsächlich eine Vorstellung davon zu haben, was diese historischen Ergebnisse hervorgerufen hat und / oder oder ob sie für die Zukunft aussagekräftig sind.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.