Ensembles gewinnen bei der Vorhersage aus theoretischen und praktischen Gründen.
Es gibt eine grundlegende Theorie der optimalen Vorhersage, wenn wir das nächste Ereignis in einer Sequenz vorhersagen wollen, die auf der Kenntnis vorheriger Ereignisse basiert. Solomonoff-Vorhersage (Solomonoff 1964) ist in mehrfacher Hinsicht nachweislich optimal, einschließlich der Tatsache, dass es "lernen wird, jede berechenbare Sequenz nur mit der absoluten Mindestmenge an Daten korrekt vorherzusagen". (Hutter, Legg & Vitanyi 2007) Ein Solomonoff-Prädiktor gewichtet alle kompatiblen Programme Mit den vorhandenen Daten werden gemäß der Kolmogorov-Komplexität des Programms und der Wahrscheinlichkeit, mit der das Programm die Daten bisher zuordnet, epikureische ("behalte alle Theorien") und Ockham-Philosophien ("bevorzuge einfache Theorien") in einem Bayes'schen Rahmen kombiniert.
Die Optimalitätseigenschaften der Solomonoff-Vorhersage erklären das robuste Ergebnis, auf das Sie sich beziehen: Die Mittelung über Modelle, Quellen oder Experten verbessert die Vorhersagen, und die gemittelten Vorhersagen übertreffen sogar die besten Einzelvorhersagen. Die verschiedenen Ensemble-Methoden in der Praxis können als berechenbare Annäherungen an die Solomonoff-Vorhersage angesehen werden - und einige wie MML (Wallace 2005) untersuchen die Zusammenhänge explizit, die meisten jedoch nicht.
Wallace (2005) stellt fest, dass ein Solomonoff-Prädiktor nicht sparsam ist - er behält einen unendlichen Pool von Modellen bei -, aber der größte Teil der Vorhersagekraft fällt unweigerlich auf eine relativ kleine Menge von Modellen. In einigen Bereichen kann das beste Einzelmodell (oder eine Familie von nahezu nicht unterscheidbaren Modellen) einen großen Teil der Vorhersagekraft ausmachen und generische Ensembles übertreffen, in komplexen Bereichen mit geringer Theorie erfasst jedoch wahrscheinlich keine einzelne Familie den Großteil der hinteren Wahrscheinlichkeit. und daher sollte die Mittelung über die plausiblen Kandidaten die Vorhersagen verbessern. Um den Netflix-Preis zu gewinnen, mischte das Bellkor-Team über 450 Modelle (Koren 2009).
Menschen suchen normalerweise nach einer einzigen guten Erklärung: In "hochtheoretischen" Bereichen wie der Physik funktionieren diese gut. In der Tat sollten sie nahezu unschlagbar sein, wenn sie die zugrunde liegende Kausaldynamik erfassen. Wo jedoch die verfügbaren Theorien nicht genau zu den Phänomenen passen (z. B. Filmempfehlung oder Geopolitik), werden einzelne Modelle schlechter abschneiden: Alle sind unvollständig, daher sollte keines der Modelle dominieren. So der jüngste Schwerpunkt auf Ensembles (für maschinelles Lernen) und Wisdom of the Crowds (für Experten) sowie der Erfolg von Programmen wie IARPA ACE und speziell dem Good Judgement Project (Tetlock & Gardiner 2015).
Verweise
- M. Hutter, S. Legg und P. Vitanyi, "Algorithmic Probability", Scholarpedia, vol. 2, 2007, p. 2572.
- Y. Koren, „Die BellKor-Lösung für den Netflix-Hauptpreis“, 2009.
- Solomonoff, Ray (März 1964). "Eine formale Theorie der induktiven Folgerung Teil I" (PDF). Information und Kontrolle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
- Solomonoff, Ray (Juni 1964). "Eine formale Theorie der induktiven Folgerung Teil II" (PDF). Information und Kontrolle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
- PE Tetlock, politisches Expertenurteil: Wie gut ist es? Wie können wir das wissen ?, Princeton University Press, 2005.
- Tetlock, PE & Gardner, D. (2015). Superforecasting: Die Kunst und Wissenschaft der Vorhersage. New York: Krone.
- CS Wallace, Statistische und induktive Inferenz nach minimaler Nachrichtenlänge, Springer-Verlag, 2005.