Warum ist es so wichtig, prinzipielle und mathematische Theorien für maschinelles Lernen zu haben?

25

Ich habe mich gefragt, warum es so wichtig ist, prinzipielles / theoretisches maschinelles Lernen zu haben. Aus einer persönlichen Perspektive als Mensch kann ich verstehen, warum prinzipielles maschinelles Lernen wichtig wäre:

Menschen mögen es zu verstehen, was sie tun, wir finden Schönheit und Befriedigung zu verstehen.
Aus theoretischer Sicht macht Mathematik Spaß
Wenn es Prinzipien gibt, die das Design von Dingen leiten, wird weniger Zeit für zufälliges Raten, seltsames Ausprobieren aufgewendet. Wenn wir beispielsweise verstehen würden, wie neuronale Netze wirklich funktionieren, könnten wir vielleicht viel mehr Zeit damit verbringen, sie zu entwerfen, als mit dem gewaltigen Aufwand an Versuchen und Irrtümern, der derzeit anfällt.
In jüngerer Zeit sollte das System (hoffentlich) transparenter sein, wenn die Prinzipien klar sind und die Theorie ebenfalls klar ist. Das ist gut so, denn wenn wir verstehen, wie das System funktioniert, riskiert die KI, dass viele Leute, die über so ziemlich alles nachdenken, sofort verschwinden.
Prinzipien scheinen eine prägnante Methode zu sein, um die wichtigen Strukturen der Welt zusammenzufassen und zu beschreiben, wann ein Werkzeug anstelle eines anderen eingesetzt werden sollte.

Sind diese Gründe jedoch stark genug, um ein intensives theoretisches Studium des maschinellen Lernens zu rechtfertigen? Eine der größten Kritikpunkte an der Theorie ist, dass sie, weil sie so schwer zu machen ist, normalerweise einen sehr eingeschränkten Fall studiert oder die Annahmen, die gebracht werden müssen, die Ergebnisse im Wesentlichen unbrauchbar machen. Ich glaube, ich habe das einmal bei einem Vortrag des Schöpfers von Tor am MIT gehört. Dass ein Teil der Kritik an Tor, die er gehört hat, das theoretische Argument ist, aber im Grunde genommen sind die Menschen nie in der Lage, Dinge über die realen Szenarien des realen Lebens zu beweisen, weil sie so kompliziert sind.

In dieser neuen Ära mit so viel Rechenleistung und Daten können wir unsere Modelle mit realen Datensätzen und Testsätzen testen. Wir können anhand des Empirismus sehen, ob die Dinge funktionieren. Wenn wir stattdessen AGI oder Systeme erreichen können, die mit Ingenieurwissenschaften und Empirismus arbeiten, lohnt es sich immer noch, eine prinzipielle und theoretische Rechtfertigung für maschinelles Lernen zu verfolgen, insbesondere wenn die quantitativen Grenzen so schwer zu erreichen sind, aber Intuitionen und qualitative Antworten so viel einfacher sind mit einem datengetriebenen Ansatz erreichen? Dieser Ansatz war in der klassischen Statistik nicht verfügbar, weshalb ich die Theorie zu dieser Zeit für so wichtig hielt, da wir nur mithilfe der Mathematik sicher sein konnten, dass die Dinge korrekt waren oder dass sie tatsächlich so funktionierten, wie wir es dachten.

Ich persönlich habe Theorie immer geliebt und gedacht, und ein prinzipieller Ansatz war wichtig. Aber mit der Kraft, Dinge nur mit echten Daten und Rechenleistung ausprobieren zu können, habe ich mich gefragt, ob sich der hohe Aufwand (und möglicherweise die geringe Belohnung) der theoretischen Verfolgung immer noch lohnt.

Ist das theoretische und prinzipielle Erlernen von Maschinen wirklich so wichtig?

— Charlie Parker
quelle

"Ohne Theorie verlassen Sie sich auf die Hoffnung, dass empirische Ergebnisse für alle neuen Datensätze gelten, auf die Sie die ML-Methoden anwenden werden. Einige Eigenschaften oder Annahmen, die zutrafen, als Sie Ihre empirischen Ergebnisse beobachteten, sind jedoch möglicherweise nicht unbedingt in der Zukunft vorhanden auf neue Datensätze. "

— Charlie Parker

17

Es gibt keine richtige Antwort darauf, aber vielleicht "alles in Maßen". Während viele der jüngsten Verbesserungen beim maschinellen Lernen, z. B. Ausfall, verbleibende Verbindungen, dichte Verbindungen und Batch-Normalisierung, nicht auf einer besonders tiefen Theorie beruhen (die meisten lassen sich in einigen Absätzen rechtfertigen), gibt es meines Erachtens letztendlich einen Engpass für wie viele Solche Ergebnisse können einen enormen Einfluss haben. Irgendwann muss man sich hinsetzen und eine zusätzliche Theorie ausarbeiten, um den nächsten großen Sprung zu machen. Ebenso kann die Theorie die Intuition leiten, weil sie die Qualität oder die Grenzen eines Modells in begründeten Zweifeln beweisen kann. Dies ist besonders wichtig, um herauszufinden, ob SGD für ein bestimmtes Problem besser ist als Momentum. Das ist das Schöne an der Theorie: Sie zwingt Sie, das zu lösende Problem zu abstrahieren.

Das große Beispiel, an das ich denke, sind Support-Vektor-Maschinen. Sie wurden ursprünglich von Vapnik und Chervonenkis in den frühen 60ern entwickelt, sind aber erst in den frühen 90ern richtig in Fahrt gekommen, als Vapnik und andere erkannten, dass man mit dem Kernel-Trick nichtlineare SVMs erstellen kann. Vapnik und Chervonenkis haben auch die Theorie hinter der VC-Dimension ausgearbeitetDies ist ein Versuch, ein Maß für die Komplexität des maschinellen Lernens zu finden. Ich kann mir keine praktische Anwendung der VC-Dimension vorstellen, aber ich denke, die Idee der SVMs wurde wahrscheinlich durch ihre Arbeit daran beeinflusst. Der Kernel-Trick selbst stammt aus der abstrakt-unsinnigen Mathematik über Hilbert-Räume. Es mag eine Strecke sein zu sagen, dass es notwendig ist, diesen abstrakten Unsinn zu kennen, um SVMs zu entwickeln, aber ich denke, es hat wahrscheinlich einiges geholfen, vor allem, weil es viele Mathematiker für maschinelles Lernen begeisterte.

In Bezug auf ResNet gab es in letzter Zeit einige sehr nette Arbeiten, die darauf hinwiesen, dass Residual-Architekturen nicht unbedingt 100 Schichten tief sein müssen. In der Tat legt nahe , einige Arbeiten , dass die Restverbindungen sehr ähnlich sind RNNs, zum Beispiel Brückenschlag zwischen Residual Lernen, Recurrent Neural Networks und Visual Cortex “, Liao et al. Ich denke , das es auf jeden Fall ein Blick in tiefer wert macht , weil es zeigt , dass Theoretisch ist ResNet mit vielen Ebenen unglaublich ineffizient und aufgebläht.

Die Ideen zum Gradienten-Clipping für RNNs wurden in der mittlerweile berühmten Veröffentlichung " Über die Schwierigkeit, wiederkehrende neuronale Netze zu trainieren " - Pascanu et al. al. Obwohl Sie wahrscheinlich ohne die ganze Theorie auf ein Gradienten-Clipping kommen könnten, ist es meines Erachtens ein langer Weg, zu verstehen, warum RNNs so verdammt schwer zu trainieren sind, ohne etwas Besonderes zu tun, insbesondere indem Sie Analogien zu dynamischen Systemkarten zeichnen (wie in der obigen Abhandlung) ).

Die Entropy Stochastic Gradient Descent- Methoden sind sehr aufregend . Diese wurden aus der Langevin-Dynamik abgeleitet, und ein Großteil der theoretischen Ergebnisse wurzelt fest in der klassischen theoretischen PDE-Theorie und der statistischen Physik. Die Ergebnisse sind vielversprechend, weil sie SGD in einem neuen Licht erscheinen lassen, was die Frage betrifft, wie sie in lokalen Schwankungen der Verlustfunktion stecken bleibt und wie man die Verlustfunktion lokal glätten kann, um SGD effizienter zu machen. Es ist ein langer Weg, um zu verstehen, wann SGD nützlich ist und wann es sich schlecht verhält. Dies können Sie nicht empirisch ableiten, indem Sie SGD mit verschiedenen Arten von Modellen testen.

In dem Artikel Faszinierende Eigenschaften neuronaler Netze fassen die Autoren zusammen, dass neuronale Netze aufgrund hoher Lipchitz-Konstanten zwischen den Schichten empfindlich gegenüber widrigen Beispielen (definiert als berechnete, leichte Bildstörungen) sind. Dies ist immer noch ein aktives Forschungsgebiet und kann nur durch theoretischere Ableitungen besser verstanden werden.

Es gibt auch das Beispiel der topologischen Datenanalyse , um das sich mindestens eine Firma ( Ayasdi ) gebildet hat. Dies ist ein besonders interessantes Beispiel, da die dafür verwendeten Techniken so spezifisch und abstrakt sind, dass es auch heute noch viel Zeit braucht, um zu sehen, wo die Ideen aus dieser Theorie landen. Meines Erachtens ist die Komplexität der beteiligten Algorithmen in der Regel recht hoch (vor 20 Jahren war sie für neuronale Netze jedoch genauso hoch).

— Alex R.
quelle

7

Die Antwort auf diese Frage ist eigentlich sehr einfach. Mit der theoretischen Begründung hinter dem Modell des maschinellen Lernens können wir zumindest nachweisen, dass es bei mehr oder weniger realistischen Bedingungen Garantien für die Optimalität der Lösung gibt. Ohne sie haben wir keinerlei Garantien. Sicher, Sie können sagen "Lassen Sie uns einfach überprüfen, was funktioniert und es für das bestimmte Problem verwenden", aber dies ist nicht durchführbar, da es unendlich viele Möglichkeiten gibt, wie Sie ein Problem mit maschinellem Lernen lösen können.

Sagen Sie, dass Sie etwas vorhersagen wollen , einige gegeben . Woher wissen Sie, dass keine optimale Lösung ist? Was ist mit ? Oder ? Vielleicht geben Sie einfach als Ihre Vorhersage zurück? Oder wenn ungerade ist, benutze und gib sonst ? Sicher, all diese Vorschläge klingen absurd, aber wie können Sie ohne Theorie sicher sein, dass einer von ihnen nicht optimal wäre? Mit einer unendlichen Anzahl möglicher Lösungen wird sogar das einfachste Problem unlösbar. Die Theorie begrenzt Ihren "Suchraum" der realisierbaren Modelle für eine bestimmte Klasse von Problemen (Sie wissen, welche Modelle es wert sind, in Betracht gezogen zu werden, und welche nicht). $Y$ $X$ $X + 42$ $X + 42.5$ $\sqrt{X - 42}$ $42$ $X$ $X+42$ $0$

— Tim
quelle

2

reicht es nicht aus, zu überprüfen, ob Ihr trainiertes Modell mit Validierungs- und Testsätzen funktioniert? Welche Garantien haben theoretische Grenzen, wenn ihre Grenzen tatsächlich nicht verwendet werden können?

— Charlie Parker

6

@CharlieParker OK, beginnen Sie mit der Quervalidierung aller Modelle, in denen sich befindet . Wie lange würde es dauern, bis Sie das beste Modell finden? Beachten Sie, dass dies nur ein sehr einfaches Modell ist und Sie viel mehr tun können, als die Konstante zu addieren. Nachdem Sie also die unendliche Anzahl solcher Modelle überprüft haben, müssen Sie eine unendliche Anzahl von Klassen mit unendlicher Anzahl von Modellen überprüfen ... Außerdem: Woher wissen Sie, dass die gegenseitige Validierung "funktioniert"? Sie wissen das aus theoretischen Gründen.

X + c

$X + c$

c

$c$

(- \infty, \infty)

$(-\infty, \infty)$

— Tim

5

Betrachtet man nur die Frage: Ist die theoretische und prinzipielle Verfolgung des maschinellen Lernens wirklich so wichtig?

Definieren Sie, was Sie mit "wichtig" meinen. Philosophisch gesehen ist es eine grundlegende Unterscheidung, ob man etwas beschreiben oder etwas verstehen will. In einer etwas groben Antwort ist es der Unterschied zwischen Wissenschaftlichkeit oder etwas anderem. Der praktische Teil betrifft nicht die zugrunde liegende Frage. Wenn etwas zu schwierig oder unmöglich zu beweisen ist, ist dies eine wichtige Entdeckung. (Geben Sie Goedel et al.) Aber das bedeutet nicht, dass es irrelevant ist. Dies mag aus pragmatischer Sicht zumindest irrelevant erscheinen. Aber es sollte zumindest als etwas von grundlegender Bedeutung und Wert anerkannt werden.

Betrachten Sie eine Analogie: Die Medizin als Ganzes (und aus der Vergangenheit) ist nicht wissenschaftlich. In gewisser Weise kann es eigentlich nie sein. Es ist eine Disziplin, die sich ausschließlich nach ihren Ergebnissen richtet. In den meisten Fällen gibt es nichts Besseres als "Wahrheit". Es stellt sich jedoch heraus, dass einige Teile tatsächlich wissenschaftlich sein können - und hier geschieht der größte Teil des geplanten Fortschritts.

Eine andere extrem kurze Beschreibung könnte lauten: Ohne Theorie kann man viel Geld verdienen. Wenn es für ein "größeres Gut" wirklich nützlich ist, erhalten Sie möglicherweise sogar einen Nobelpreis dafür. Aber Sie werden niemals die Fields-Medaille erhalten.

— Cherub
quelle

1

+1 Ich finde dies eine interessante Antwort auf das OP, bitte Sie jedoch, die Medizin als nicht-wissenschaftlich zu erläutern. Ist das nicht der diagnostische Prozess, bei dem festgestellt wird, was ein Patient leidet, ein Prozess, bei dem Differentialdiagnosen (ein theoretisches Konzept für vermutete Krankheiten) angenommen werden und Daten gesammelt werden, um vorherzusagen, welche Krankheit am wahrscheinlichsten ist? ...

— IWS

(Fortsetzung) ... gibt es keine Prognosen, in denen Ärzte versuchen, den zukünftigen Krankheitsverlauf anhand der verfügbaren Daten einzuschätzen, die durch Follow-up- und empirische Befunde überprüft werden können und in der Regel werden? Und schließlich, ist die Wissenschaft eine Suche nach einer höheren, aber existierenden Wahrheit, oder nähern wir uns einem Konstrukt der Wahrheit an, von dem wir glauben, dass es gegenwärtig ist?

— IWS

Eigentlich geht die Frage der Medizin etwas tiefer. Wissenschaft ist im Grunde nur eine Methode oder ein Prozess. Damit die Wissenschaft "funktioniert", muss man in der Lage sein, Hypothesen mit der inhärenten Möglichkeit der Fälschung auf gleicher Grundlage zu prüfen. Kurz gesagt: Wenn Sie eine falsche Theorie nicht beweisen können, ist sie nicht wissenschaftlich. Für die Medizin hat dies viel zu viele ethische Implikationen und da man nicht zum gleichen Zeitpunkt jemanden mit verschiedenen Optionen behandeln kann, ist das Testen von Hypothesen sehr schwierig. [...]

— Cherub

Der zweite Teil (Wissenschaft als Suche nach der Wahrheit) ist wiederum nur eine Methode. Es scheint die erfolgreichste Methode zu sein, die die Menschheit entwickelt hat. Aber es basiert nicht auf Glauben, sondern auf Fakten. In mancher Hinsicht ist es auch ein geschlossenes System. Es gibt keinen (wissenschaftlichen) Unterschied zwischen der Wahrheit und einer Konstruktion, die genau gleich zu sein scheint. Eine Einigung unter Wissenschaftlern könnte Ihnen einige Faustregeln geben (z. B. Occams Razor), aber Wissenschaft ist kein Kompass in den Meeren der Nichtwissenschaft.

— Cherub

5

Seit Jahrhunderten können Menschen Schiffe, Kutschen und Gebäude ohne die Gesetze der Physik bauen. Aber seit der modernen Wissenschaft konnten wir diese Technologien auf ein völlig neues Niveau heben. Eine bewährte Theorie erlaubt prinzipielle Verbesserungen. Ohne eine mathematische Theorie der Materie und der Berechnung hätten wir es nie zum Mond oder Computer geschafft.

Maschinelles Lernen ist nur ein weiteres Gebiet der Wissenschaft und Technik wie jedes andere. Ein prinzipieller Ansatz für maschinelles Lernen hat uns mit Kernel-Maschinen, strukturiertem Lernen und Ensemble-Methoden (Boosting, Random Forest) ausgestattet.

— jpmuc
quelle

5

Hier ist ein einfaches Beispiel aus meiner eigenen Arbeit.

Ich passe viele neuronale Netze an kontinuierliche Ergebnisse an. Man bestimmt die Gewichte durch Backpropagation. Irgendwann wird es konvergieren.

{(A^{T} A)}^{- 1} A^{T} y

$\mathbf{\left(A^TA\right)^{-1}A^Ty}$

A

$\mathbf{A}$

y

$y$

Mein Netz läuft viel schneller zusammen .

Danke, Theorie.

— generic_user
quelle

3

Empirismus gegen Theorie

Sie schrieben:

Eine der größten Kritikpunkte an der Theorie ist, dass sie, weil sie so schwer zu machen ist, normalerweise einen sehr eingeschränkten Fall studiert oder die Annahmen, die gebracht werden müssen, die Ergebnisse im Wesentlichen unbrauchbar machen.

Dies zeigt meines Erachtens die hauptsächliche Kluft zwischen den beiden Ansichten, die wir als empirisch und theoretisch bezeichnen können .

Aus empirischer Sicht sind Theoreme, wie Sie auch beschrieben haben, nutzlos, weil sie niemals komplex genug sind, um die reale Welt zu modellieren. Sie sprechen von vereinfachten idealen Szenarien, die in der realen Welt nirgendwo zutreffen. Wozu also Theorie?

Theoretisch ist das Gegenteil der Fall. Was kann uns der Empirismus darüber hinaus lehren? "Ich habe diese Methode für diesen Datensatz ausgeführt, und es war besser, als diese andere Methode für denselben Datensatz auszuführen." Dies ist zum einen nützlich, sagt aber wenig über das Problem aus.

Was die Theorie tut, bietet einige Garantien. Es ermöglicht uns auch, vereinfachte Szenarien genau zu studieren, um zu verstehen, was vor sich geht.

Beispiel

Stellen Sie sich ein aktuelles Beispiel vor: Sie möchten sehen, wie sich die Konzeptverschiebung (wenn sich die Daten im Laufe der Zeit ändern) auf Ihre Lernfähigkeit auswirkt. Wie würde ein reiner Empiriker diese Frage angehen? Alles, was er wirklich tun kann, ist, verschiedene Methoden anzuwenden und über Tricks nachzudenken, die er tun kann. Die gesamte Prozedur könnte ungefähr so aussehen:

Nehmen Sie sich die letzten 300 Tage Zeit und versuchen Sie festzustellen, ob sich der Mittelwert dieser Variablen geändert hat. OK, es hat etwas funktioniert.
Was ist, wenn wir es stattdessen 200 Tage lang versuchen?
OK, besser, versuchen wir, den Algorithmus zu ändern, sobald die Drift auftritt.
Erhalten Sie mehr Datensätze und sehen Sie, welche der bisher entwickelten Methoden am besten funktioniert.
Die Ergebnisse sind nicht schlüssig. Vielleicht gibt es mehr als eine Art von Konzeptverschiebungen?
Versuchen Sie es mit Simulationen. Was ist, wenn wir eine Konzeptverschiebung simulieren und dann verschiedene Methoden anwenden, wobei unterschiedliche Tage verwendet werden, um festzustellen, ob eine Änderung stattgefunden hat?

Was wir hier haben, sind ziemlich genaue Ergebnisse für einige Datensätze. Vielleicht waren die Daten so, dass die Aktualisierung des Lernalgorithmus basierend auf Beobachtungen von 200 vergangenen Tagen die höchste Genauigkeit ergab. Funktioniert das auch für andere Daten? Wie zuverlässig ist diese Schätzung für 200 Tage? Simulationen helfen - aber sie spiegeln nicht die reale Welt wider - die gleiche Problemtheorie.

Stellen Sie sich nun dasselbe vom theoretischen Standpunkt aus vor:

Vereinfache das Szenario auf eine absurde Ebene. Verwenden Sie möglicherweise eine Normalverteilung mit 2 Variationen und einem Mittelwert, der sich mit der Zeit plötzlich ändert.
Wählen Sie Ihre Bedingungen klar aus - wählen Sie das Modell, das für normale Daten optimal ist. Angenommen, Sie wissen, dass die Daten normal sind. Alles, was Sie nicht wissen, ist, wann die Mittelverschiebung eintritt.
Gerät eine Methode zum Erkennen, wann die Verschiebung aufgetreten ist. Auch hier kann mit 200 Beobachtungen der Vergangenheit begonnen werden.
Basierend auf dieser Einstellung sollten wir in der Lage sein, den durchschnittlichen Fehler für den Klassifizierer zu berechnen, die durchschnittliche Zeit, die der Algorithmus benötigt, um festzustellen, ob eine Änderung stattgefunden hat, und zu aktualisieren. Möglicherweise Worst-Case-Szenarien und Garantien mit einer Wahrscheinlichkeit von 95%.

Jetzt ist dieses Szenario klarer: Wir konnten das Problem eingrenzen, indem wir alle Details korrigierten. Wir kennen den durchschnittlichen Fehler unserer Klassifikatoren. Kann wahrscheinlich die Anzahl der Tage abschätzen, die erforderlich sind, um festzustellen, ob eine Änderung stattgefunden hat. Bestimmen Sie, von welchen Parametern dies abhängt (z. B. von der Größe der Änderung). Und jetzt basierend auf etwas produzieren eine praktische Lösung. Vor allem aber: Dieses Ergebnis ist (bei richtiger Berechnung) unveränderlich. Es ist für immer hier und jeder kann daraus lernen.

Wie einer der Väter des modernen maschinellen Lernens sagt Jürgen Schmidhuber gern:

Heuristiken kommen und gehen - Theoreme sind für die Ewigkeit.

Lektionen aus anderen Bereichen

Auch wollte kurz einige Parallelen zur Physik erwähnen. Ich denke, sie hatten auch dieses Dilemma. Die Physiker untersuchten reibungslose Objekte mit unendlicher Masse, die sich im unendlichen Raum bewegten. Was kann uns das auf den ersten Blick über die Realität sagen, in der wir wissen wollen, wie sich Schneeflocken im Wind bewegen? Aber es fühlt sich so an, als hätte die Theorie sie ziemlich weit gebracht.

— Karolis Koncevičius
quelle

2

Sie haben einige Gründe genannt, von denen meiner Meinung nach die Fähigkeit, ML-Ergebnisse zu interpretieren, am wichtigsten ist. Nehmen wir an, der von der KI getriebene Sachwächter hat beschlossen, den Hund des Nachbarn zu erschießen. Es wäre wichtig zu verstehen, warum es so war. Wenn dies in Zukunft nicht verhindert werden soll, müssen Sie zumindest verstehen, wer haftet und wer dem Eigentümer eine Entschädigung zahlt.

Für mich ist der wichtigste Grund jedoch, dass das Verständnis der Prinzipien, auf denen der Algorithmus basiert, es ermöglicht, seine Grenzen zu verstehen und seine Leistung zu verbessern. Betrachten Sie die Verwendung des euklidischen Abstandes in ML. In vielen Clustering-Algorithmen beginnen Sie mit der Definition des Abstands zwischen Beispielen und fahren dann damit fort, die Grenzen zwischen den Merkmalen von Beispielen zu finden, die sie in ihrer Nähe gruppieren. Sobald Sie die Anzahl der Features erhöhen, funktioniert der euklidische Abstand an einem bestimmten Punkt nicht mehr. Sie können viel Zeit damit verbringen, es zum Laufen zu bringen, oder - wenn Sie wissen, dass die euklidische Distanz als Annäherungsmaß nicht in einem unendlichen Dimensionslimit funktioniert - einfach zu einer anderen Distanzmetrik wie Manhattan wechseln und mit der Arbeit fortfahren auf echte Probleme. Sie können eine Menge Beispiele wie dieses finden,

— Aksakal
quelle

2

Ich habe diese Behauptung schon einmal gehört, aber ich glaube nicht , ich bin mir bewusst , jedes spezifisches Beispiel , das dies zeigen würde: Gibt es ein Beispiel für einige Daten , die nicht gut mit euklidischen Abständen sind Clustering aber bin Clustering gut mit Manhattan Entfernungen?

— Amöbe sagt Reinstate Monica

1

@amoeba hier ist die allgemeine Referenz, obwohl ich dies früher in einem anderen Kontext kennengelernt habe . Wenn Sie sich das Volumenverhältnis einer Hypersphäre innerhalb eines Einheitshyperwürfels ansehen, schrumpft es auf Null, wenn die Dimensionalität des Hyperwürfels gegen unendlich geht. Grundsätzlich fallen in höheren Dimensionen alle konvexen Körper in Punkte zusammen - meine Interpretation

— Aksakal

2

Ich denke, es ist sehr schwierig, keine philosophische Diskussion zu führen. Meine Antwort ist wirklich eine Umformulierung der hier bereits erwähnten guten Punkte (+1 für alle); Ich möchte nur auf ein Zitat von Andrew Gelman verweisen, das mich wirklich als jemanden ansprach, der eine Ausbildung zum Informatiker absolviert hat. Ich habe den Eindruck, dass viele der Menschen, die das maschinelle Lernen nennen, auch aus der Informatik stammen. Das Zitat stammt aus einem Vortrag, den Gelman auf der New York R-Konferenz 2017 mit dem Titel Theoretical Statistics is the Theory of Applied Statistics gehalten hat :

Theorie ist skalierbar.

Die Theorie sagt Ihnen, was Sinn macht und was unter bestimmten Bedingungen nicht. Wollen wir Tausende oder Zehntausende oder Millionen von Simulationen durchführen, um eine Vorstellung von der Wahrheit zu bekommen? Wollen wir empirische Vergleiche mit immer mehr Benchmark-Datensätzen durchführen? Es wird eine Weile dauern, und unsere Ergebnisse können immer noch spröde sein. Woher wissen wir außerdem, dass die Vergleiche, die wir anstellen, sinnvoll sind? Woher wissen wir, dass unser neuer Deep Learner mit einer Genauigkeit von 99,5% wirklich besser ist als der alte mit einer Genauigkeit von 99,1%? Eine Theorie wird hier helfen.

Ich bin ein großer Fan von Simulationen und ich benutze sie oft, um die Welt zu verstehen (oder sogar, um die Theorie zu verstehen), aber theoretisches maschinelles Lernen ist die Theorie des angewandten maschinellen Lernens.

— einar
quelle