Wann werden mehrere Modelle für die Vorhersage verwendet?

13

Dies ist eine ziemlich allgemeine Frage:

Ich habe in der Regel festgestellt, dass die Verwendung mehrerer verschiedener Modelle ein Modell übertrifft, wenn versucht wird, eine Zeitreihe anhand einer Stichprobe vorherzusagen. Gibt es gute Papiere, die belegen, dass die Kombination von Modellen ein einzelnes Modell übertrifft? Gibt es Best Practices für die Kombination mehrerer Modelle?

Einige Referenzen:

Hui Zoua, Yuhong Yang "Kombination von Zeitreihenmodellen für die Vorhersage" International Journal of Forecasting 20 (2004) 69–84

time-series modeling model-comparison

— Shane
quelle

Ich fügte hinzu, was ich denke, ist eine ziemlich gute Quelle (leider ein Lehrbuch) mit Anmerkungen, im Lichte Ihres Kommentars / Ihrer Frage unter meiner Antwort. Ich habe meine ursprüngliche Antwort bearbeitet, sodass sie am Ende angezeigt wird.

— Doug

7

Manchmal werden solche Modelle als Ensemble bezeichnet. Zum Beispiel gibt diese Seite einen schönen Überblick darüber, wie es funktioniert. Auch die dort genannten Referenzen sind sehr nützlich.

— Peter Smit
quelle

3

In der Tat ist das Mischen eine der möglichen Ensemble-Techniken. Insbesondere gibt es zwei, wenn Sie die gleiche Art von Klassifikator kombinieren: Boosten (wie Adaboost) und Absacken (wie Random Forest) und Mischen, wobei Sie verschiedene Klassifikatoren kombinieren (worum ging es bei Shane?).

3

Zum Mischen ist dieses Papier aus dem Netflix-Wettbewerb eine Lektüre wert: the-ensemble.com/content/feature-weighted-linear-stacking .

— Shane

1

Es macht Spaß, dass Meteorologen das Wort "Ensemble" auch verwenden, aber nicht für eine Kombination: Sie verwenden es für ein Ensemble von Vorhersagen (wie ein Szenario), das durch Störung der Anfangsbedingungen des numerischen Modells erhalten wird.

— Robin Girard

1

@mbq in der Tat nennen sie sich Prognostiker und sie verwenden Statistiken ziemlich viel ...

— Robin Girard

1

@robin Ich weiß, das ist nur der Grund, warum es "Ensemble" heißt, kein Set oder so.

10

Das letzte Jahr des NetFlix-Preises (2009) schien mir die allgemeine, gemeinschaftsweite Vermutung, mehrere Lernalgorithmen zu kombinieren, stark verändert zu haben.

Zum Beispiel lehrten mich meine formellen Schulungen (Universitätskurse) und meine spätere Aufsicht / Betreuung am Arbeitsplatz, die Kombination von Algorithmen zu vermeiden, es sei denn, wir hatten einen ausdrücklichen Grund dafür - und "um die Auflösung meines aktuellen Algorithmus zu verbessern", wasn ' Es ist wirklich ein guter Grund. (Andere haben möglicherweise eine andere Erfahrung - natürlich schließe ich eine Community-weite Sichtweise, die ausschließlich auf meiner eigenen Erfahrung basiert, obwohl meine Erfahrung im Codieren von ML-Algorithmen mit schlechter Leistung erheblich ist.)

Dennoch gab es einige "Muster", in denen das Kombinieren von Algorithmen auf die eine oder andere Weise akzeptiert und die Leistung tatsächlich verbessert wurde. Für mich war das häufigste Beispiel ein ML-Algorithmus, der im Maschinenmodus konfiguriert wurde (wobei jedem Datenpunkt eine Klassenbezeichnung zugewiesen wurde) und in dem es mehr als zwei Klassen gab (normalerweise viel mehr). Wenn Sie zum Beispiel einen überwachten Lernalgorithmus verwenden, um vier Klassen aufzulösen, sehen Sie eine hervorragende Trennung, mit Ausnahme von Klasse III gegenüber Klasse IV. Von diesen sechs Entscheidungsgrenzen wurde also nur eine unterhalb des erforderlichen Schwellenwerts aufgelöst. Insbesondere wenn die Klassen III und IV zusammen einen kleinen Prozentsatz der Daten ausmachten, wurde ein zusätzlicher Algorithmus hinzugefügt, der nur für die Auflösung dieser beiden Klassen optimiert wurdewar eine ziemlich verbreitete Lösung für diesen analytischen Problemtyp. (Normalerweise war dieser "tote Winkel" eine inhärente Einschränkung des primären Algorithmus - z. B. war er ein linearer Klassifikator und die III / IV-Entscheidungsgrenze war nicht linear.

Mit anderen Worten, als wir einen zuverlässigen Algorithmus hatten, der für die Verarbeitungsumgebung (die normalerweise Daten strömt) geeignet war und der innerhalb der Spezifikation ausgeführt wurde, mit Ausnahme eines einzigen blinden Flecks, der dazu führte, dass zwei (oder mehr) Klassen, die berücksichtigt wurden, nicht aufgelöst wurden Ein kleiner Teil der Daten, dann war es immer besser, einen anderen spezialisierten Algorithmus anzuschrauben, um herauszufinden, was dem Hauptalgorithmus systematisch fehlte.

Schließlich zu diesem Thema würde Ich mag sehr Kapitel 17, empfehlen Kombinieren mehrere Lernende , in Einführung in Maschinelles Lernen , 2d, von Ethem Alpaydin, MIT Press, 2010. Beachten Sie, dass dies ist die zweite Ausgabe vor einigen Monaten veröffentlicht; Die erste Ausgabe wurde im Jahr 2004 veröffentlicht und ich bezweifle, dass es die gleiche Berichterstattung über dieses Thema gibt. (Eigentlich empfehle ich den gesamten Text, aber insbesondere das Kapitel, da es sich auf Shane's Frage bezieht.)

Auf 25 Seiten fasst der Autor wahrscheinlich jedes ML-Algorithmus-Kombinationsschema zusammen, dessen Nützlichkeit in der akademischen Literatur oder Praxis demonstriert wurde - z. ..

— doug
quelle

Das sind großartige Informationen. Kennen Sie Papiere, die das behandeln?

— Shane

(Ich habe von SA keinen Hinweis auf Ihren Kommentar erhalten.) Als ich das schrieb, bezog ich mich nicht auf Artikel, sondern fasste nur informell Teile meiner Erfahrungen zusammen, die für Ihre Frage relevant waren. Ich werde meine Dateien durchsehen und sehen, was ich habe, das aber relevant ist.

— Doug

4

Follow-up auf Peters Antwort auf Ensemble-Methoden:

Dies wird in "Die Elemente des statistischen Lernens" behandelt (siehe z. B. Seite 288).
Witten und Frank "Data Mining: Praktische Tools und Techniken des maschinellen Lernens" behandeln dies in Abschnitt 7.5, einschließlich einer Erörterung von Bagging, Randomisierung, Boosting, additiver Regression, additiver logistischer Regression, Optionsbäumen, logistischen Modellbäumen und Stapeln.
Dies wird in Kapitel 14 von Christopher M. Bishop "Mustererkennung und maschinelles Lernen" behandelt , einschließlich Bayes'scher Modellmittelung, Boosting, Komitees, baumbasierter Modelle und Modelle für bedingte Mischungen.

— Shane
quelle

2

Das spektakulärste Beispiel ist die Netflix-Herausforderung , die die Blending-Popularität wirklich gesteigert hat.

1

Im Folgenden finden Sie eine etwas vom linken Feld abweichende Antwort, die nur die "Best Practices zum Kombinieren mehrerer Modelle" in Ihrer Frage behandelt. Dies ist im Grunde genau meine Honours-These, außer dass ich mich mit komplexen, stark nichtlinearen Modellen beschäftige, die Chaos und Rauschen aufweisen - Klimamodelle. Dies ist wahrscheinlich nicht allgemein auf viele Bereiche anwendbar, könnte aber in der Ökologie oder Ökonometrie nützlich sein.

Bis vor kurzem wurden in der Community der Klimamodelle die Modelle im ungewichteten Durchschnitt größtenteils nur zusammengeschlagen (in der Regel nach einer Bias-Korrektur, bei der der Modellmittelwert für einen Teil des Stichprobenzeitraums oder den gesamten Stichprobenzeitraum entfernt wurde). Dies ist im Grunde das, was das IPCC für den 4. Bewertungsbericht (4AR) und frühere Berichte getan hat.

Dies ist mehr oder weniger ein Beispiel für die " Wahrheit plus Fehler " -Schule einer Ensemblekombination, bei der stillschweigend oder ausdrücklich davon ausgegangen wird, dass Beobachtungsserien (z. B. globale Temperatur, lokaler Niederschlag usw.) wahr sind und wenn Sie genügend Proben entnehmen (zB Modellläufe), das Geräusch in den Modellläufen wird aufgehoben (siehe (1)).

In jüngerer Zeit wurden Methoden zum Kombinieren von Modellen basierend auf der Leistungsgewichtung verwendet. Da Klimamodelle so verrauscht sind und so viele Variablen und Parameter aufweisen, können Sie die Leistung (die mir bekannt ist) nur anhand der Kovarianz oder anhand der MSE zwischen der Modellausgabe und den beobachteten Zeitreihen bewerten. Modelle können dann kombiniert werden, indem der Mittelwert basierend auf diesem Maß gewichtet wird. Einen guten Überblick dazu gibt es in (2).

Eine Annahme hinter dieser Methode zur Kombination von Simulationen ist die Annahme, dass die Modelle alle einigermaßen unabhängig sind - wenn einige stark abhängig wären, würden sie den Mittelwert verzerren. Diese Annahme war für das für 4AR ( CMIP3) verwendete Dataset angemessen , da dieses Dataset aus wenigen Modellläufen von vielen Modellierungsgruppen bestand (andererseits wird Code in der Modellierungscommunity geteilt, sodass möglicherweise noch eine gewisse Interdependenz besteht Für einen interessanten Blick darauf siehe (3)). Der Datensatz für den nächsten Bewertungsbericht, CMIP5hat dieses etwas zufällige Attribut nicht - einige Modellierungsteams werden einige Läufe einreichen, während andere Hunderte einreichen werden. Ensembles, die aus verschiedenen Teams stammen, können durch eine Erstprüfung oder durch Änderungen der Modellphysik und -parametrisierung entstehen. Auch dieses Super-Ensemble wird nicht systematisch gesampelt - es ist nur derjenige, der Daten bringt, wird akzeptiert (im Rahmen der Vernunft). Dies ist auf dem Gebiet als " Ensemble of Opportunity " bekannt. Die Verwendung eines ungewichteten Mittelwerts in einem solchen Ensemble kann durchaus zu einer gewissen Neigung zu Modellen mit mehr Läufen führen (da es zwar Hunderte von Läufen gibt, aber wahrscheinlich eine viel geringere Anzahl von wirklich unabhängigen Läufen).

Mein Vorgesetzter hat zur Zeit ein Papier in Bearbeitung, in dem ein Prozess der Modellkombination beschrieben wird, bei dem Leistung UND Unabhängigkeit gewichtet werden . Es ist eine Zusammenfassung des Konferenzpapiers verfügbar (4). Ich werde den Link zu dem Papier veröffentlichen, wenn es veröffentlicht wird (langsamer Prozess, halten Sie nicht den Atem an). Grundsätzlich wird in diesem Artikel ein Prozess beschrieben, bei dem die Kovarianz von Modellfehlern (model-obs) herangezogen und Modelle, die eine hohe Kovarianz mit allen anderen Modellen aufweisen (dh Modelle mit stark abhängigen Fehlern), gewichtet werden. Die Modellfehlervarianz wird ebenfalls berechnet und als Leistungsgewichtungskomponente verwendet.

Es ist auch erwähnenswert, dass die Klimamodellierung offensichtlich stark von den Launen der numerischen Modellierung im Allgemeinen beeinflusst wird. Es gibt einen so genannten "Lachtest" - wenn Sie am Ende einen Modelllauf haben, der impliziert, dass die globalen Durchschnittstemperaturen bis 2050 + 20 ° C betragen, werfen Sie ihn einfach raus, weil er eindeutig physikalisch nicht relevant ist. Offensichtlich ist diese Art von Test ziemlich subjektiv. Ich habe es noch nicht benötigt, aber ich erwarte es in naher Zukunft.

So verstehe ich derzeit die Zustandsmodellkombination in meinem Bereich. Offensichtlich lerne ich noch. Wenn ich also auf etwas Besonderes stoße, komme ich zurück und aktualisiere diese Antwort.

(1) Tebaldi, C. & Knutti, R., 2007. Die Verwendung des Multi-Modell-Ensembles in probabilistischen Klimaprojektionen. Philosophische Transaktionen der Royal Society A: Mathematik, Physik und Ingenieurwissenschaften, 365 (1857), S. 2053–2075.

(2) Knutti, R. et al., 2010. IPCC-Expertentreffen zur Bewertung und Kombination von Multi-Modell-Klimaprojektionen.

(3) Masson, D. & Knutti, R., 2011. Klimamodell-Genealogie. Geophys. Res. Lett, 38 (8), S. L08703.

(4) Abramowitz, G. & Bishop, C., 2010. Definition und Gewichtung der Modellabhängigkeit in der Ensemble-Vorhersage. In AGU Fall Meeting Abstracts. p. 07.

— naught101
quelle

erster absatz du meinst "komplexe, stark nichtlineare modelle" oder? Für meinen Arbeitsbereich (Nicht-Klimabereich) stelle ich häufig fest, dass die Verwendung unterschiedlicher Modelle im Allgemeinen nicht zu sehr unterschiedlichen Vorhersagen führt. Es ist jedoch eine enorme Hürde für uns, das Computing für eine nicht-ad-hoc-Kombination von Modellen zum Laufen zu bringen. Ich würde genauere Vorhersagen erwarten, aber ich habe nicht die Zeit, die Modelle zu kombinieren und den Fehler in diesen Vorhersagen genau abzuschätzen.

— Wahrscheinlichkeitislogic

Danke, behoben. Ich habe Zugang zu einem Computercluster, so dass die Rechenleistung kein großes Problem darstellt, aber ja, selbst wenn ich ein Modell richtig einstelle, ist das ein Problem, und es ist bereits geschrieben. Aus diesem Grund gibt es CMIP, sodass die Leute nicht jedes Mal all diese Schwierigkeiten durchmachen müssen. Würde mich interessieren, in welchem Bereich du bist, wenn du ähnliche Sachen machst.

— Naught101