Warum sind Ensembles so unangemessen effektiv?


14

Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?


1
Meine Vermutung wäre The Central Limit Theorem, aber ich habe keine Rechtfertigung.

Antworten:


13

Wählen Sie für ein bestimmtes Modell, das Sie mit Daten versorgen, die Merkmale, Hyperparameter usw. aus. Im Vergleich zur Realität macht es drei Arten von Fehlern:

  • Verzerrung (aufgrund zu geringer Modellkomplexität, Stichprobenverzerrung in Ihren Daten)
  • Varianz (aufgrund von Rauschen in Ihren Daten, Überanpassung Ihrer Daten)
  • Zufälligkeit der Realität, die Sie vorhersagen möchten (oder fehlende Vorhersagefunktionen in Ihrem Datensatz)

Ensembles mitteln eine Reihe dieser Modelle aus. Die Abweichung aufgrund der Abtastabweichung wird aus offensichtlichen Gründen nicht behoben. Sie kann einen Teil der Modellkomplexitätsabweichung beheben. Die Abweichungsfehler, die bei den verschiedenen Modellen auftreten, sind jedoch sehr unterschiedlich. Besonders Modelle mit geringer Korrelation machen in diesem Bereich sehr unterschiedliche Fehler. Bestimmte Modelle weisen in bestimmten Bereichen Ihres Funktionsbereichs eine gute Leistung auf. Indem Sie diese Modelle ausmitteln, reduzieren Sie diese Varianz um einiges. Deshalb glänzen Ensembles.


6

Die ausgewählte Antwort ist fantastisch, aber ich möchte zwei Dinge hinzufügen:

  1. Es wurde beobachtet, dass die Mittelung menschlicher Vorhersagen bessere Vorhersagen liefert als jede einzelne Vorhersage. Dies ist als die Weisheit der Menge bekannt . Nun könnte man argumentieren, dass es daran liegt, dass einige Leute unterschiedliche Informationen haben, so dass Sie effektiv den Durchschnitt der Informationen bilden. Aber nein, dies gilt auch für Aufgaben wie das Erraten der Anzahl der Bohnen in einem Glas. Ich gehe davon aus, dass dies mit einigen der oben genannten Gründe für Data Mining-Modelle zusammenhängt.
  2. Einige Techniken wie die Dropout-Methode in neuronalen Netzen (wobei Sie während des Trainings in jeder Iteration nur einen Teil Ihres neuronalen Netzes verwenden) führen zu Ergebnissen, die einem Ensemble neuronaler Netze ähneln. Der Grund dafür ist, dass Sie Knoten effektiv dazu zwingen, die gleiche Prädiktorarbeit wie die anderen Knoten auszuführen, wodurch effektiv ein Metaensemble erstellt wird. Ich sage dies, um zu verdeutlichen, dass wir möglicherweise einige der Vorteile von Ensembles in traditionellen Modellen vorstellen können.

6

Ensembles gewinnen bei der Vorhersage aus theoretischen und praktischen Gründen.

Es gibt eine grundlegende Theorie der optimalen Vorhersage, wenn wir das nächste Ereignis in einer Sequenz vorhersagen wollen, die auf der Kenntnis vorheriger Ereignisse basiert. Solomonoff-Vorhersage (Solomonoff 1964) ist in mehrfacher Hinsicht nachweislich optimal, einschließlich der Tatsache, dass es "lernen wird, jede berechenbare Sequenz nur mit der absoluten Mindestmenge an Daten korrekt vorherzusagen". (Hutter, Legg & Vitanyi 2007) Ein Solomonoff-Prädiktor gewichtet alle kompatiblen Programme Mit den vorhandenen Daten werden gemäß der Kolmogorov-Komplexität des Programms und der Wahrscheinlichkeit, mit der das Programm die Daten bisher zuordnet, epikureische ("behalte alle Theorien") und Ockham-Philosophien ("bevorzuge einfache Theorien") in einem Bayes'schen Rahmen kombiniert.

Die Optimalitätseigenschaften der Solomonoff-Vorhersage erklären das robuste Ergebnis, auf das Sie sich beziehen: Die Mittelung über Modelle, Quellen oder Experten verbessert die Vorhersagen, und die gemittelten Vorhersagen übertreffen sogar die besten Einzelvorhersagen. Die verschiedenen Ensemble-Methoden in der Praxis können als berechenbare Annäherungen an die Solomonoff-Vorhersage angesehen werden - und einige wie MML (Wallace 2005) untersuchen die Zusammenhänge explizit, die meisten jedoch nicht.

Wallace (2005) stellt fest, dass ein Solomonoff-Prädiktor nicht sparsam ist - er behält einen unendlichen Pool von Modellen bei -, aber der größte Teil der Vorhersagekraft fällt unweigerlich auf eine relativ kleine Menge von Modellen. In einigen Bereichen kann das beste Einzelmodell (oder eine Familie von nahezu nicht unterscheidbaren Modellen) einen großen Teil der Vorhersagekraft ausmachen und generische Ensembles übertreffen, in komplexen Bereichen mit geringer Theorie erfasst jedoch wahrscheinlich keine einzelne Familie den Großteil der hinteren Wahrscheinlichkeit. und daher sollte die Mittelung über die plausiblen Kandidaten die Vorhersagen verbessern. Um den Netflix-Preis zu gewinnen, mischte das Bellkor-Team über 450 Modelle (Koren 2009).

Menschen suchen normalerweise nach einer einzigen guten Erklärung: In "hochtheoretischen" Bereichen wie der Physik funktionieren diese gut. In der Tat sollten sie nahezu unschlagbar sein, wenn sie die zugrunde liegende Kausaldynamik erfassen. Wo jedoch die verfügbaren Theorien nicht genau zu den Phänomenen passen (z. B. Filmempfehlung oder Geopolitik), werden einzelne Modelle schlechter abschneiden: Alle sind unvollständig, daher sollte keines der Modelle dominieren. So der jüngste Schwerpunkt auf Ensembles (für maschinelles Lernen) und Wisdom of the Crowds (für Experten) sowie der Erfolg von Programmen wie IARPA ACE und speziell dem Good Judgement Project (Tetlock & Gardiner 2015).

Verweise

  • M. Hutter, S. Legg und P. Vitanyi, "Algorithmic Probability", Scholarpedia, vol. 2, 2007, p. 2572.
  • Y. Koren, „Die BellKor-Lösung für den Netflix-Hauptpreis“, 2009.
  • Solomonoff, Ray (März 1964). "Eine formale Theorie der induktiven Folgerung Teil I" (PDF). Information und Kontrolle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
  • Solomonoff, Ray (Juni 1964). "Eine formale Theorie der induktiven Folgerung Teil II" (PDF). Information und Kontrolle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
  • PE Tetlock, politisches Expertenurteil: Wie gut ist es? Wie können wir das wissen ?, Princeton University Press, 2005.
  • Tetlock, PE & Gardner, D. (2015). Superforecasting: Die Kunst und Wissenschaft der Vorhersage. New York: Krone.
  • CS Wallace, Statistische und induktive Inferenz nach minimaler Nachrichtenlänge, Springer-Verlag, 2005.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.