Beim Boosten werden schwache oder instabile Klassifikatoren als Basislerner verwendet. Dies ist der Fall, weil das Ziel darin besteht, deutlich unterschiedliche Entscheidungsgrenzen zu generieren. Dann ist ein guter Grundschüler ein stark voreingenommener Schüler, mit anderen Worten, der Output bleibt im Grunde derselbe, selbst wenn die Trainingsparameter für die Grundschüler geringfügig geändert werden.
In neuronalen Netzen ist Dropout eine Regularisierungstechnik, die mit Trainingsensembles verglichen werden kann. Der Unterschied besteht darin, dass das Zusammenfügen im latenten Raum erfolgt (Neuronen existieren oder nicht), wodurch der Generalisierungsfehler verringert wird.
"Jedes Trainingsbeispiel kann somit als Gradient für eine andere, zufällig ausgewählte Architektur angesehen werden, so dass das endgültige neuronale Netzwerk effizient ein riesiges Ensemble neuronaler Netzwerke mit guter Generalisierungsfähigkeit darstellt" - zitiert aus hier .
Es gibt zwei solche Techniken: In dropout werden Neuronen fallengelassen (was bedeutet, dass die Neuronen mit einer bestimmten Wahrscheinlichkeit existieren oder nicht), während in dropconnect die Gewichte fallengelassen werden.
Um Ihre Frage zu beantworten: Ich glaube, dass neuronale Netze (oder Perzeptrone) in einem Boosting-Setup nicht als Basislerner verwendet werden, da sie langsamer zu trainieren sind (nur zu viel Zeit in Anspruch nehmen) und die Lernenden nicht so schwach sind, obwohl sie es könnten seien Sie gegründet, um instabiler zu sein. Die Mühe lohnt sich also nicht.
Möglicherweise wurde zu diesem Thema geforscht, es ist jedoch schade, dass Ideen, die nicht gut funktionieren, normalerweise nicht erfolgreich veröffentlicht werden. Wir brauchen mehr Forschung über Wege, die nirgendwohin führen, auch bekannt als "probieren Sie das nicht aus".
BEARBEITEN:
Ich hatte ein bisschen mehr damit zu tun, und wenn Sie sich für Ensembles großer Netzwerke interessieren, beziehen Sie sich möglicherweise auf Methoden zum Kombinieren der Ausgänge mehrerer solcher Netzwerke. Die meisten Menschen stimmen je nach Aufgabe im Durchschnitt oder mit der Mehrheit - dies ist möglicherweise nicht optimal. Ich glaube, es sollte möglich sein, die Gewichte für die Ausgabe jedes Netzwerks entsprechend dem Fehler in einem bestimmten Datensatz zu ändern. Je weniger die Ausgaben korreliert sind, desto besser ist Ihre Zusammenstellungsregel.