Antworten:
Man kann sich im Allgemeinen zwei Arten von Härteergebnissen beim maschinellen Lernen vorstellen: Informationstheoretische Härte im Kontext des statistischen Lernens (dh Untergrenze für die minimale Anzahl von Beispielen, die zum Lernen erforderlich sind) und algorithmische Härte (dh eine schlechte algorithmische Wahl) bedeutet, dass die Optimierung unmöglich wird).
Im Zusammenhang mit Deep Learning ist es schwierig, über Härte zu diskutieren, da wir eigentlich nur sehr wenig darüber wissen, warum theoretisch Deep Learning funktioniert. (Erinnern Sie sich: Das beim Deep Learning gelöste Optimierungsproblem besteht darin, eine hochdimensionale hochgradig nicht konvexe Funktion zu minimieren, und es ist bekannt, dass sie im Allgemeinen NP-hart ist. Das heißt, es gibt keine Garantien für das Erreichen des globalen Minimums. Praktiker haben SGD-Varianten verwendet, um viele Probleme sehr gut zu lösen. In jüngster Zeit wurden einige Fortschritte erzielt, um eine berechtigte Antwort darauf zu geben, warum dies so ist, aber dies liegt außerhalb des Rahmens Ihrer Frage.)
Ein sehr schönes Beispiel für die algorithmische Härte beim Tiefenlernen ist der Versuch, Probleme zu lernen, bei denen der Gradient nicht informativ ist. Deep Learning verwendet derzeit eine Form von SGD, um die Gewichte des Netzwerks zu aktualisieren. Zum Beispiel berechnet Mini-Batches GD den Gradienten der Kostenfunktion über eine Zufallsstichprobe von Beispielen bezüglich der Parameter :
Mit anderen Worten, die DL-Optimierung versucht, eine Funktion mithilfe lokaler Gradienteninformationen global zu optimieren . Dies deutet darauf hin, dass wenn ein Lernproblem durch nicht informative Gradienten gekennzeichnet ist, keine Deep-Learning-Architektur es lernen kann.
Das Lernen zufälliger Paritäten ist das folgende Lernproblem:
Nach Auswahl eines Vektors besteht das Ziel darin, eine Prädiktorzuordnung zu trainieren bis , wobei einheitlich ist verteilt. Mit anderen Worten, wir versuchen, eine Zuordnung zu lernen, die bestimmt, ob die Anzahl der Einsen in einer bestimmten Teilmenge von Koordinaten von (angezeigt durch ) gerade oder ungerade ist.
In "Fehler des gradientenbasierten Tiefenlernens" ( Shamir, 2017 ) beweisen die Autoren, dass dieses Problem (und allgemeiner jede mit einer periodischen zusammengesetzte lineare Funktion ) unter nicht informativen Gradienten leidet, was das Optimierungsproblem als schwierig macht .
Sie demonstrieren dies auch empirisch, indem sie die Genauigkeit als Funktion der Anzahl der Trainingsiterationen für verschiedene Eingabedimensionen messen.
Das hier verwendete Netzwerk besteht aus einer vollständig verbundenen Schicht der Breite mit ReLU-Aktivierungen und einer vollständig verbundenen Ausgangsschicht mit linearer Aktivierung und einer einzelnen Einheit. (Die Breite wird so gewählt, dass die erforderliche Paritätsfunktion tatsächlich von einem solchen Netzwerk realisiert wird.)
F: Warum wird das Lernen der Parität erst bei etwa schwierig ?
Es schlägt fehl, wenn Sie dem Problem nicht die richtige Struktur auferlegen. Faltungs-Neuronale Netze funktionieren, weil sie davon ausgehen, dass Pixel, die nahe beieinander liegen, miteinander verwandt sind. Daher ist es sinnvoll, räumliche Faltungen auf Ihre Features anzuwenden. Auf diese Weise haben Sie den Suchraum für Hypothesen drastisch reduziert, was bedeutet, dass Deep Learning eher zu einer optimalen Lösung führt.
Wenn Sie Deep Learning auf ein Problem anwenden, bei dem die Merkmale nicht für räumliche / zeitliche Windungen geeignet sind, schlägt Deep Learning fehl, da es nicht sinnvoll ist, bestimmte Merkmale zusammenzufassen und Funktionen auf die Summierung anzuwenden neuronale Netze tun.
Wenn sich jemand ein Beispiel vorstellen kann, bei dem Deep Learning erfolgreich auf Daten angewendet wurde, bei denen es sich nicht um Bilder oder Audio (oder räumliche / zeitliche Daten) handelt, würde ich diese Antwort gerne zurückziehen.