Hat jemand Literatur über Pre-Training in Deep Convolutional Neural Network gesehen? Ich habe nur unbeaufsichtigtes Pre-Training in Autoencoder oder eingeschränkten Boltzman-Maschinen gesehen.
Hat jemand Literatur über Pre-Training in Deep Convolutional Neural Network gesehen? Ich habe nur unbeaufsichtigtes Pre-Training in Autoencoder oder eingeschränkten Boltzman-Maschinen gesehen.
Antworten:
Ich bin mir nicht sicher, ob dies genau Ihre Frage beantwortet, aber nach meinem Verständnis ist der Grund, warum Sie nicht sehen, dass Menschen vor dem Training trainieren ( ich meine dies im Sinne eines unbeaufsichtigten Vor- Trainings), der, dass es verschiedene Neuerungen in rein beaufsichtigtem Training gegeben hat haben unbeaufsichtigte Vorschulungen überflüssig gemacht (wer weiß vorerst, welche Probleme und Probleme die Zukunft haben wird?).
Eine der Hauptinnovationen war die Abkehr von sigmoidalen (Sigmoid-, Tanh-) Aktivierungseinheiten, die Bereiche mit nahezu flacher Krümmung sättigen / aufweisen können und daher nur einen geringen Gradienten nach hinten ausbreiten, so dass das Lernen unglaublich langsam ist, wenn nicht für alle praktischen Zwecke vollständig gestoppt wird und Zwecke. Der Artikel Deep Sparse Rectifier Neural Networks von Glorot, Bordes und Bengio verwendete gleichgerichtete Lineareinheiten (ReLUs) als Aktivierungsfunktionen anstelle der traditionellen sigmoidalen Einheiten. Die ReLUs haben die folgende Form: . Beachten Sie, dass sie unbegrenzt sind und für den positiven Teil einen konstanten Gradienten 1 haben.
Der Artikel von Glorot, Bordes und Bengio verwendete ReLUs für mehrschichtige Perceptrons und keine Conv-Netze. Ein vorheriger Artikel Was ist die beste mehrstufige Architektur für die Objekterkennung von Jarret und anderen aus der NYU-Gruppe von Yann LeCun? Sie verwendeten Gleichrichtungs-Nichtlinearitäten, jedoch für die sigmoidalen Einheiten, sodass sie Aktivierungsfunktionen der Formusw. In beiden Artikeln wurde festgestellt, dass die Verwendung der Korrektur von Nichtlinearitäten einen großen Teil der Lücke zwischen rein überwachten Methoden und nicht überwachten, vortrainierten Methoden zu schließen scheint.
Eine weitere Neuerung ist, dass wir viel bessere Initialisierungen für tiefe Netzwerke gefunden haben. Mit der Idee, die Varianz über die Schichten eines Netzwerks hinweg zu standardisieren, wurden über die Jahre hinweg gute Faustregeln aufgestellt. Eine der ersten, beliebtesten Arbeiten war die von Glorot und Bengio, die die Schwierigkeit des Trainings von Deep Feedforward- Netzen erkannten. Sie ermöglichten die Initialisierung von Deep Nets unter einer linearen Aktivierungshypothese und später das Einführen von Deep Into Rectifiersvon einer Gruppe von Microsoft Research-Teammitgliedern, die die Glorot- und Bengio-Gewichtsinitialisierung ändern, um die korrigierenden Nichtlinearitäten zu berücksichtigen. Die Gewichtsinitialisierung ist eine große Sache für extrem tiefe Netze. Bei einem 30-Lagen-Conv-Netz war die MSR-Gewichtsinitialisierung viel besser als die Glorot-Gewichtsinitialisierung. Denken Sie daran, dass das Glorot-Papier 2010 und das MSR-Papier 2015 herauskamen.
Ich bin nicht sicher, ob das Paper ImageNet Classification with Deep Convolutional Neural Networks von Alex Krizhevsky, Ilya Sutskever und Geoff Hinton die ersten war, die ReLUs für Convets verwendeten, aber es hatte den größten Einfluss. In diesem Artikel sehen wir, dass ReLUs für Convets das Lernen beschleunigen. Dies wird durch eine der CIFAR-10-Grafiken belegt, die zeigt, dass ReLU-Convets schnellere Trainingsfehlerraten erzielen können als Nicht-ReLU-Convets. Diese ReLUs leiden nicht unter den Problemen des verschwindenden Gradienten / der Sättigung des Sigmas und können verwendet werden, um viel tiefere Netze zu trainieren. Eine der anderen großen Innovationen war die Verwendung von Dropout-Training, einer stochastischen Rauschinjektion oder einer Modellmittelungstechnik (je nach Sichtweise), die es uns ermöglicht, tiefere, größere neuronale Netze länger zu trainieren, ohne zu viel Überanpassung.
Und die Innovation von conv net setzte sich in rasantem Tempo fort. Fast alle Methoden verwendeten ReLUs (oder Modifikationen wie PReLUs von Microsoft Research), Dropout und rein betreutes Training (SGD + Momentum, möglicherweise einige adaptive Lernratentechniken wie RMSProp oder ADAGrad) ).
Ab sofort scheinen viele der leistungsstärksten Netzwerke rein beaufsichtigt zu sein. Das heißt nicht, dass unbeaufsichtigtes Vor-Training oder die Verwendung unbeaufsichtigter Techniken in Zukunft möglicherweise nicht wichtig sind. Aber einige unglaublich tiefe Convets wurden trainiert, haben die Leistung auf menschlicher Ebene an sehr umfangreichen Datensätzen erreicht oder übertroffen, nur mit beaufsichtigtem Training. Tatsächlich glaube ich, dass der neueste Beitrag von Microsoft Research zum ImageNet 2015-Wettbewerb 150 Ebenen umfasste. Das ist kein Tippfehler. 150.
Wenn Sie unbeaufsichtigtes Pretraining für Convets verwenden möchten, finden Sie am besten eine Aufgabe, bei der das "standardmäßige" beaufsichtigte Training von Convets nicht so gut funktioniert, und versuchen Sie es mit unbeaufsichtigtem Pretraining.
Im Gegensatz zur Modellierung natürlicher Sprachen scheint es schwierig zu sein, eine nicht überwachte Aufgabe zu finden, die einer entsprechenden überwachten Aufgabe bei Bilddaten hilft. Aber wenn Sie sich im Internet genug umschauen, sehen Sie einige der Pioniere des Tiefenlernens (Yoshua Bengio, Yann LeCun, um nur einige zu nennen), wie wichtig sie denken, dass unbeaufsichtigtes Lernen ist und sein wird.
Wie aus den obigen Antworten hervorgeht, wurde das Vortraining "umgearbeitet", als mehrere Dinge passierten. Ich möchte jedoch mein Verständnis davon destillieren:
Wie Sie sehen, änderte sich das Vortraining in der Form in Vorverarbeitung und Gewichtsinitialisierung, blieb jedoch in Funktion und wurde eleganter.
Schließlich ist maschinelles Lernen in Mode. Ich persönlich wette wie Andrew Ng, dass unbeaufsichtigtes und autodidaktisches Lernen in Zukunft vorherrschen wird, also mach das nicht zu einer Religion :)
Es gibt einige Artikel, aber nicht so viele wie Autoencoder oder RBMs. Ich denke der Grund ist die Zeitlinie von NN. Stacked RBM und Autoencoder werden 2006 bzw. 2007 eingeführt . Nach dem Einsatz von ReLU im Jahr 2009 wird das unbeaufsichtigte Lernen teilweise aufgegeben (wenn genügend Daten zum Lernen in direkt beaufsichtigtem Lernen vorhanden sind). Obwohl Convolution net (oder LeNet) 1989 erfunden wurde , konnte es erst 2012 , nach der Popularisierung des direkt überwachten Lernens mit ReLU, als Tiefenstruktur trainiert werden. Ich glaube, Forscher haben es größtenteils mit Hilfe von direkt überwachtem Lernen trainiert.