Wie ich in den Kommentaren schrieb, erscheint mir diese Frage zu weit gefasst, aber ich werde versuchen, eine Antwort zu finden. Um einige Grenzen zu setzen, beginne ich mit einer kleinen Mathematik, die den meisten ML zugrunde liegt, und konzentriere mich dann auf die jüngsten Ergebnisse für DL.
Der Bias-Varianz-Kompromiss wird in unzähligen Büchern, Kursen, MOOCs, Blogs, Tweets usw. zu ML erwähnt, daher können wir nicht ohne Erwähnung beginnen:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
Beweis hier: https://web.stanford.edu/~hastie/ElemStatLearn/
Das Gauß-Markov-Theorem (ja, lineare Regression wird ein wichtiger Teil des maschinellen Lernens bleiben, egal was: damit umgehen) stellt klar, dass OLS das Minimum hat, wenn das lineare Modell wahr ist und einige Annahmen zum Fehlerterm gültig sind mittlerer quadratischer Fehler (der im obigen Ausdruck nur Bias2 + Variance ) nur unter den unverzerrten linearen Schätzern des linearen Modells. Es könnte also durchaus lineare Schätzer mit Bias (oder nichtlineare Schätzer) geben, die einen besseren mittleren quadratischen Fehler und damit einen besser erwarteten Vorhersagefehler als OLS aufweisen. Und dies ebnet den Weg zu all dem Regularisierungs-Arsenal (Grat-Regression, LASSO, Gewichtsabnahme usw.), das ein Arbeitstier von ML ist. Ein Beweis wird hier (und in unzähligen anderen Büchern) gegeben:
https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
Wahrscheinlich relevanter für die Explosion von Regularisierungsansätzen, wie Carlos Cinelli in den Kommentaren feststellte, und definitiv unterhaltsamer, ist das James-Stein-Theorem . Betrachten Sie n unabhängige, gleiche Varianz, aber nicht gleiche mittlere Gaußsche Zufallsvariablen:
Xi|μi∼N(θi,σ2),i=1,…,n
mit anderen Worten, wir haben einen n− Komponenten Gaußschen Zufallsvektor . Wir haben eine Stichprobe aus und möchten schätzen . Der MLE- (und auch UMVUE-) Schätzer ist offensichtlich . Betrachten Sie den James-Stein-SchätzerX∼N(θ,σ2I)xXθ& thgr; M L E = xθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Wenn , schrumpft die MLE-Schätzung in Richtung Null. Der James-Stein - Theorem besagt , dass für , dominiert streng , dh es hat eine geringere MSE . Pheraps überraschend, auch wenn wir auf jede andere Konstante schrumpfen , noch dominiert . Seit dem(n−2)σ2≤||x||2θ J S n ≥ 4 θ J Sθ^JS n≥4θ^JS θ^MLE∀ θc≠0 & theta; JS θ MLEXiθ^JSθ^MLEXiUnabhängig sind, mag es seltsam erscheinen, dass der Versuch, die Größe von drei unabhängigen Personen zu schätzen, einschließlich einer Stichprobe aus der Anzahl der in Spanien erzeugten Äpfel, unsere Schätzung im Durchschnitt verbessern kann . Der entscheidende Punkt ist hier "im Durchschnitt": Der mittlere quadratische Fehler für die gleichzeitige Schätzung aller Komponenten des Parametervektors ist kleiner, der quadratische Fehler für eine oder mehrere Komponenten kann jedoch durchaus größer sein, und zwar häufig, wenn Sie haben "extreme" Beobachtungen.
Das Herausfinden, dass MLE, das in der Tat der "optimale" Schätzer für den Fall der univariaten Schätzung war, für die multivariate Schätzung entthront wurde, war zu dieser Zeit ein ziemlicher Schock und führte zu einem großen Interesse an Schrumpfung, besser bekannt als Regularisierung in der ML-Sprache. Man könnte einige Ähnlichkeiten mit gemischten Modellen und dem Konzept der "Ausleihstärke" feststellen: Es gibt tatsächlich einen Zusammenhang, wie hier diskutiert
Einheitliche Sicht auf die Schrumpfung: Welche Beziehung besteht (wenn überhaupt) zwischen Steins Paradoxon, Gratregression und zufälligen Effekten in gemischten Modellen?
Literaturhinweis: James, W., Stein, C., Schätzung mit quadratischem Verlust . Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Band 1: Beiträge zur Theorie der Statistik, 361-379, University of California Press, Berkeley, CA, 1961
Die Hauptkomponentenanalyse ist der Schlüssel zum wichtigen Thema der Dimensionsreduktion und basiert auf der Singularwertzerlegung : Für jede reelle Matrix (obwohl der Satz leicht auf komplexe Matrizen verallgemeinert werden kann) können wir schreibenN×pX
X=UDVT
wobei der Größe orthogonal ist, eine Diagonalmatrix mit nichtnegativen Diagonalelementen ist und der Größe wiederum orthogonal ist. Für Beweise und Algorithmen zur Berechnung siehe: Golub, G. und Van Loan, C. (1983), Matrix-Berechnungen , John Hopkins University Press, Baltimore.UN×pDp×pUp×p
Der Satz von Mercer ist der Grundstein für viele verschiedene ML-Methoden: dünne Plattensplines, Support-Vektor-Maschinen, die Kriging-Schätzung eines Gaußschen Zufallsprozesses usw. Grundsätzlich ist er einer der beiden Sätze hinter dem sogenannten Kernel-Trick . Sei eine symmetrische stetige Funktion oder ein Kernel. wenn positiv semidefinit ist, lässt es eine orthornormale Basis von Eigenfunktionen zu, die nichtnegativen Eigenwerten entsprechen:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
Die Bedeutung dieses Theorems für die ML-Theorie wird durch die Anzahl der Referenzen in berühmten Texten, wie zum Beispiel Rasmussen & Williams-Text zu Gaußschen Prozessen, bestätigt .
Literaturhinweis: J. Mercer, Funktionen vom positiven und negativen Typ und ihr Zusammenhang mit der Theorie der Integralgleichungen. Philosophische Transaktionen der Royal Society of London. Serie A, mit mathematischen oder physikalischen Aufsätzen, 209: 415-446, 1909
Es gibt auch eine einfachere Darstellung in Konrad Jörgens, Lineare Integraloperatoren , Pitman, Boston, 1982.
Der andere Satz, der zusammen mit dem Satz von Mercer die theoretische Grundlage des Kernel-Tricks bildet, ist der Repräsentantensatz . Angenommen, Sie haben einen Sample-Space und einen symmetrisch positiven semidefiniten Kernel . Es sei auch das mit assoziierte RKHS . Schließlich sei ein Übungsbeispiel. Der Satz besagt, dass unter allen Funktionen , die alle eine unendliche Repräsentation in Form von Eigenfunktionen von zulassenXK:X×X→RHKKS={xi,yi}ni=1f∈HKKAufgrund des Mercer-Theorems hat derjenige, der das regulierte Risiko minimiert, immer eine endliche Repräsentation in der Basis, die durch den an den Trainingspunkten bewerteten Kern gebildet wird , d. hn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(Der Satz ist die letzte Gleichheit). Literatur: Wahba, G. 1990, Spline Models for Observational Data , SIAM, Philadelphia.
Der universelle Näherungssatz wurde bereits von Benutzer Tobias Windisch zitiert und ist für das maschinelle Lernen viel weniger relevant als für die Funktionsanalyse, auch wenn dies auf den ersten Blick nicht so scheint. Das Problem ist, dass der Satz nur besagt, dass ein solches Netzwerk existiert, aber:
- es gibt keine Korrelation zwischen der Größe der verborgenen Schicht und einem Maß für die Komplexität der Zielfunktion , wie zum Beispiel Total Variation. Wenn und das für einen festen Fehler erforderliche exponentiell mit gewachsen ist , dann wächst eine einzelne verborgene Schicht neuronal Netzwerke wären nutzlos.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- es sagt nicht , wenn das Netzwerk ist erlernbar . Mit anderen Worten , wir gehen davon aus, dass wir bei gegebenem und wissen, dass sich eine Größe NN mit der erforderlichen Toleranz im Hyperkubus annähert. Haben wir dann durch die Verwendung von Trainingssätzen der Größe und eines Lernverfahrens wie zum Beispiel Back-Prop die Garantie, dass wir durch Erhöhen von wiederherstellen können ?F(x)fϵNfMMF
- Schließlich, und schlimmer noch, sagt es nichts über den Vorhersagefehler neuronaler Netze aus. Was wir wirklich interessiert, ist eine Abschätzung des Vorhersagefehler, zumindest im Durchschnitt über alle Trainingssätze der Größe . Der Satz hilft in dieser Hinsicht nicht weiter.M
Ein kleinerer Nachteil bei der Hornik-Version dieses Theorems ist, dass es für ReLU-Aktivierungsfunktionen nicht gilt. Inzwischen hat Bartlett jedoch eine erweiterte Version bewiesen, die diese Lücke schließt.
Bis jetzt waren wohl alle Theoreme, die ich für gut hielt, jedem bekannt. Nun ist es Zeit für das lustige Zeug :-) Sehen wir uns ein paar Deep Learning- Sätze an:
Annahmen:
- Das tiefe neuronale Netzwerk (für festes ist die Funktion, die die Eingänge des neuronalen Netzwerks mit seinen Ausgängen verknüpft) und der Regularisierungsverlust sind beide Summen von positiv homogene Funktionen in gleichem MaßeΦ(X,W)WΦW(X)Θ(W)
- Die Verlustfunktion ist konvex und einmal in differenzierbar , in einer kompakten MengeL(Y,Φ(X,W)XS
Dann:
- ein beliebiges lokales Minimum für so dass ein Subnetz von null Gewichte hat, ist ein globales Minimum ( Satz 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- oberhalb einer kritischen Netzwerkgröße konvergiert der lokale Abfall von jeder Initialisierung immer gegen ein globales Minimum ( Satz 2 ).
Dies ist sehr interessant: CNNs, die nur aus Faltungsschichten, ReLU, Max-Pooling, vollständig verbundenen ReLU und linearen Schichten bestehen, sind positiv homogene Funktionen, während dies nicht mehr zutrifft, wenn wir Sigmoid-Aktivierungsfunktionen einbeziehen , was den Vorgesetzten teilweise erklären könnte Leistung in einigen Anwendungen von ReLU + max-Pooling in Bezug auf Sigmoide. Darüber hinaus gelten die Sätze nur, wenn auch in im gleichen Maße wie positiv homogen ist . Nun ist die lustige Tatsache, dass oder Regularisierung, obwohl positiv homogen, nicht den gleichen Grad von (der Grad vonΘWΦl1l2ΦΦsteigt im oben erwähnten einfachen CNN-Fall mit der Anzahl der Schichten an. Stattdessen entsprechen modernere Regularisierungsmethoden wie Batch-Normalisierung und Pfad-SGD einer positiv homogenen Regularisierungsfunktion in demselben Ausmaß wie , und Dropout ist zwar nicht genau diesem Framework angepasst, weist jedoch starke Ähnlichkeiten auf. Dies mag erklären, warum die Regularisierung von und nicht ausreicht, um eine hohe Genauigkeit bei CNNs zu , aber wir müssen alle möglichen teuflischen Tricks anwenden, wie zum Beispiel Dropout- und Batch-Normalisierung! Nach meinem besten Wissen ist dies die Erklärung der Wirksamkeit der Chargennormalisierung, die ansonsten sehr undurchsichtig ist, wie Al Rahimi in seinem Vortrag richtig feststellte.Φl1l2
Eine andere Beobachtung, die einige Leute auf der Grundlage von Satz 1 machen , ist, dass sie erklären könnte, warum ReLU auch mit dem Problem toter Neuronen gut funktioniert . Nach dieser Intuition ist die Tatsache, dass einige ReLU-Neuronen während des Trainings "sterben" (zur Aktivierung auf Null gehen und sich dann nie davon erholen, da für der Gradient von ReLU Null ist) "ein Merkmal, kein Fehler" ", denn wenn wir ein Minimum erreicht haben und ein vollständiges Teilnetzwerk gestorben ist, dann haben wir nachweislich ein globales Minimum erreicht (unter den Hypothesen von Satz 1)x<0). Ich kann etwas vermissen, aber ich denke, diese Interpretation ist weit hergeholt. Erstens können ReLUs während des Trainings "sterben", bevor wir ein lokales Minimum erreicht haben. Zweitens muss bewiesen werden, dass ReLU-Einheiten, wenn sie "sterben", dies immer über ein vollständiges Subnetz tun. Der einzige Fall, in dem dies trivial zutrifft, ist, dass Sie nur eine verborgene Schicht haben, in welchem Fall natürlich jedes einzelne Neuron ist ein Subnetz. Aber im Allgemeinen würde ich "tote Neuronen" sehr vorsichtig als eine gute Sache ansehen.
Verweise:
B. Haeffele und R. Vidal, Globale Optimalität beim Training neuronaler Netze , In IEEE-Konferenz über Computer Vision und Mustererkennung, 2017.
B. Haeffele und R. Vidal. Globale Optimalität bei Tensorfaktorisierung, Deep Learning und darüber hinaus , arXiv, abs / 1506.07540, 2015.
Die Bildklassifizierung erfordert Lerndarstellungen, die gegenüber verschiedenen Transformationen wie Position, Pose, Blickwinkel, Beleuchtung, Ausdruck usw., die in natürlichen Bildern häufig vorhanden sind, jedoch keine Informationen enthalten, unveränderlich (oder zumindest robust, dh sehr schwach empfindlich) sind für die Klassifizierungsaufgabe. Dasselbe gilt für die Spracherkennung: Änderungen in Tonhöhe, Lautstärke, Tempo und Akzent. usw. sollte nicht zu einer Änderung der Klassifizierung des Wortes führen. Operationen wie Faltung, maximales Pooling, durchschnittliches Pooling usw., die in CNNs verwendet werden, verfolgen genau dieses Ziel. Wir gehen daher intuitiv davon aus, dass sie für diese Anwendungen funktionieren. Aber haben wir Theoreme, die diese Intuition stützen? Es gibt einen vertikalen TranslationsinvarianzsatzDies hat, ungeachtet des Namens, nichts mit der vertikalen Übersetzung zu tun, aber es ist im Grunde genommen ein Ergebnis, das besagt, dass die in den folgenden Ebenen erlernten Funktionen mit zunehmender Anzahl von Ebenen immer unveränderlicher werden. Dies steht im Gegensatz zu einem älteren Satz der horizontalen Translationsinvarianz, der jedoch für Streunetzwerke gilt, nicht jedoch für CNNs. Der Satz ist jedoch sehr technisch:
- Angenommen, (Ihr Eingabebild) ist quadratisch integrierbarf
- , Ihr Filter pendelt mit dem Übersetzungsoperator , der das Eingabebild auf eine übersetzte Kopie von sich selbst . Ein gelernter Faltungskern (Filter) erfüllt diese Hypothese.TtfTtf
- Angenommen, alle Filter, Nichtlinearitäten und Pools in Ihrem Netzwerk erfüllen eine so genannte schwache Zulässigkeitsbedingung , bei der es sich im Grunde um eine schwache Regelmäßigkeits- und Begrenzungsbedingung handelt. Diese Bedingungen werden durch erlernten Faltungskern (solange eine Normalisierungsoperation für jede Schicht durchgeführt wird), ReLU, Sigmoid, Tanh usw., Nichtlinearitäten und durch durchschnittliches Pooling, jedoch nicht durch maximales Pooling erfüllt. Es deckt also einige (nicht alle) reale CNN-Architekturen ab.
- Es sei schließlich angenommen, dass jede Schicht einen Pooling-Faktor , dh Pooling wird in jeder Schicht angewendet und verwirft effektiv Informationen. Die Bedingung würde auch für eine schwächere Version des Theorems ausreichen.nSn>1Sn≥1
Geben Sie mit die Ausgabe der Schicht des CNN an, wenn die Eingabe . Dann endlich:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(Die dreifachen Balken sind kein Fehler.) Dies bedeutet im Grunde, dass jede Schicht Merkmale lernt, die immer invarianter werden, und im Rahmen eines unendlich tiefen Netzwerks haben wir eine vollkommen invariante Architektur. Da CNNs eine begrenzte Anzahl von Schichten haben, sind sie nicht perfekt übersetzungsinvariant, was den Praktikern gut bekannt ist.
Referenz: T. Wiatowski und H. Bolcskei, Eine mathematische Theorie tiefer Faltungsneuralnetze zur Merkmalsextraktion , arXiv: 1512.06293v3 .
Zusammenfassend lässt sich sagen, dass zahlreiche Grenzen für den Verallgemeinerungsfehler eines Deep Neural Network aufgrund seiner Vapnik-Chervonkensis-Dimension oder der Rademacher-Komplexität mit der Anzahl der Parameter (einige sogar exponentiell) zunehmen, was bedeutet, dass sie nicht erklären können, warum DNNs so gut funktionieren in der Praxis auch dann, wenn die Anzahl der Parameter erheblich größer ist als die Anzahl der Trainingsmuster. Tatsächlich ist die VC-Theorie beim Deep Learning nicht sehr nützlich.
Umgekehrt haben einige Ergebnisse des letzten Jahres den Generalisierungsfehler eines DNN-Klassifikators an eine Größe gebunden, die von der Tiefe und Größe des neuronalen Netzes unabhängig ist, jedoch nur von der Struktur des Trainingssatzes und dem Eingaberaum abhängt. Unter einigen ziemlich technischen Annahmen zum Lernverfahren, zum Trainingssatz und zum Eingaberaum, aber mit sehr geringen Annahmen zum DNN (insbesondere, CNNs sind vollständig abgedeckt), haben wir dann mit einer Wahrscheinlichkeit von mindestens1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
wo:
- GE ist der Generalisierungsfehler, definiert als die Differenz zwischen dem erwarteten Verlust (dem durchschnittlichen Verlust des erlernten Klassifikators bei allen möglichen Testpunkten) und dem empirischen Verlust (nur der gute alte Trainingssatzfehler).
- Ny ist die Anzahl der Klassen
- m ist die Größe des Trainingssatzes
- Nγ ist die Deckungszahl der Daten, eine Größe, die sich auf die Struktur des Eingaberaums und auf den minimalen Abstand zwischen Punkten verschiedener Klassen im Trainingssatz bezieht. Referenz:
J. Sokolic, R. Giryes, G. Sapiro und M. Rodrigues. Generalisierungsfehler von invarianten Klassifikatoren . In AISTATS, 2017