Was ist die Grundidee des maschinellen Lernens zum Schätzen von Parametern?


19

Die Grundidee der Statistik zur Schätzung von Parametern ist die maximale Wahrscheinlichkeit . Ich frage mich, was der entsprechende Gedanke beim maschinellen Lernen ist.

Frage 1: Wäre es fair zu sagen, dass die Grundidee des maschinellen Lernens zur Schätzung von Parametern lautet: "Verlustfunktionen"?

[Anmerkung: Ich habe den Eindruck, dass Algorithmen für maschinelles Lernen häufig eine Verlustfunktion und damit die oben gestellte Frage optimieren.]

Frage 2: Gibt es Literatur, die versucht, die Lücke zwischen Statistik und maschinellem Lernen zu schließen?

[Anmerkung: Vielleicht, um Verlustfunktionen mit maximaler Wahrscheinlichkeit in Beziehung zu setzen. (zB OLS entspricht der maximalen Wahrscheinlichkeit für normalverteilte Fehler usw.)]


3
Ich sehe das Interesse dieser Fragen, eine fiktive Lücke zu schließen, nicht. Was ist das Ziel von all dem? Darüber hinaus gibt es viele andere Ideen, die für die Statistik von grundlegender Bedeutung sind ... und die Verlustfunktion ist mindestens 100 Jahre alt. Können Sie die Statistik so reduzieren? Vielleicht handelt es sich bei Ihrer Frage um ein grundlegendes Konzept für Datenerfassung / Statistik / maschinelles Lernen, wie auch immer Sie es nennen ... Dann ist die Frage bereits vorhanden und zu weit gefasst . stats.stackexchange.com/questions/372/… .
Robin Girard

Nun, ich weiß nicht viel über maschinelles Lernen oder seine Verbindungen zur Statistik. Schauen Sie sich auf jeden Fall diese Frage an: stats.stackexchange.com/questions/6/…, was darauf hindeutet, dass zumindest die Ansätze zur Beantwortung der gleichen Fragen unterschiedlich sind. Ist es so "unnatürlich", sich zu fragen, ob es irgendeine Verbindung zwischen ihnen gibt? Ja, ich stimme zu, dass die Statistik viele Ideen enthält. Aus diesem Grund habe ich mich in Zitaten grundlegend geäußert und den Umfang auf die Schätzung von interessierenden Parametern beschränkt.

@Srikant Verbindung zwischen was? beachte, dass ich wirklich gerne nach links zwischen gut definierten objekten suche, ich finde es sehr natürlich.
Robin Girard

6
Als Maschinenlerner bin ich hier, um Ihnen zu sagen, dass wir die Wahrscheinlichkeit maximieren. Die ganze Zeit. Jede Menge maschineller Lernpapiere beginnen mit "Hey, sieh dir meine Wahrscheinlichkeit an, sieh dir an, wie sie sich faktorisiert, sieh zu, wie ich maximiere". Ich würde vorschlagen, dass es gefährlich ist, eine fundamentale Basis beider Disziplinen in Bezug auf Inferenztechniken zu behaupten. Es geht mehr darum, zu welcher Konferenz Sie gehen!
Mike Dewar

6
Ich glaube nicht, dass die Bayesianer damit einverstanden wären, dass die maximale Wahrscheinlichkeit der Grundgedanke der Statistik ist.
Marc Claesen

Antworten:


17

Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, den Verlust zu minimieren. Da Sie den Verlust, den Sie bei zukünftigen Daten erleiden werden, nicht kennen, minimieren Sie eine Annäherung, dh einen empirischen Verlust.

Wenn Sie beispielsweise eine Vorhersageaufgabe haben und anhand der Anzahl von Fehlklassifizierungen bewertet werden, können Sie Parameter trainieren, sodass das resultierende Modell die geringste Anzahl von Fehlklassifizierungen für die Trainingsdaten erzeugt. "Anzahl der Fehlklassifizierungen" (dh 0-1 Verlust) ist eine schwer zu bearbeitende Verlustfunktion, da sie nicht differenzierbar ist, sodass Sie sie mit einem glatten "Ersatz" approximieren. Zum Beispiel ist der Protokollverlust eine Obergrenze für den 0-1-Verlust, sodass Sie diesen minimieren können. Dies entspricht der Maximierung der bedingten Wahrscheinlichkeit der Daten. Mit dem parametrischen Modell entspricht dieser Ansatz der logistischen Regression.

In einer strukturierten Modellierungsaufgabe und einer Log-Loss-Approximation von 0-1-Verlust erhalten Sie etwas anderes als die maximale bedingte Wahrscheinlichkeit. Stattdessen maximieren Sie das Produkt der (bedingten) Grenzwahrscheinlichkeiten.

Um eine bessere Schätzung des Schadens zu erhalten, bemerkten die Menschen, dass das Trainingsmodell zur Minimierung des Schadens und die Verwendung dieses Schadens als Schätzung des zukünftigen Schadens eine zu optimistische Schätzung ist. Für eine genauere (echte zukünftige Verlust-) Minimierung fügen sie dem empirischen Verlust einen Verzerrungskorrekturterm hinzu und minimieren diesen, was als strukturierte Risikominimierung bezeichnet wird.

In der Praxis kann es zu schwierig sein, den richtigen Bias-Korrekturterm herauszufinden. Fügen Sie daher einen Ausdruck "im Geiste" des Bias-Korrekturterms hinzu, z. B. die Summe der Quadrate von Parametern. Am Ende trainieren fast alle Ansätze mit Überwachung des parametrischen maschinellen Lernens das Modell, um Folgendes zu minimieren

ichL(m(xich,w),yich)+P(w)

wo Modells durch den Vektor parametrisiert ist , ist , alle Datenpunkte übernommen , einige rechen schöne Annäherung des wahren Verlust ist und ist einige Vorspannungs-Korrektur / Regularisierung Begriff w i { x i , y i } L P ( w )mwich{xich,yich}LP(w)

Wenn beispielsweise Ihr , , wäre ein typischer Ansatz, , , und wählen Sie durch Kreuzvalidierung y { - 1 , 1 } m ( x ) = Vorzeichen ( w x ) L ( m ( x ) , y ) = - log ( y × ( x w ) ) P ( w ) = q × ( w w )x{-1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw))P(w)=q×(ww)q


3
Ich würde gerne sehen, wie dieser Verlust durch Clustering, kNN oder zufällige Farne minimiert wird ...

Nun, für eine Verlustfunktionscharakterisierung von k bedeutet nächster Nachbar, siehe den relevanten Unterabschnitt (2.5) dieses Papiers: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor

@John Trotzdem vermischt dies Ziele mit Gründen. Zu einem großen Teil können Sie jeden Algorithmus mit der Minimierung von etwas erklären und dies als "Verlust" bezeichnen. kNN wurde nicht so erfunden: Leute, ich habe über einen Verlust wie diesen nachgedacht, lasst uns ihn optimieren und sehen, was passieren wird !; Angenommen, Jungs, die Entscheidung ist über den Merkmalsbereich weniger kontinuierlich, wenn wir dann ein gutes Ähnlichkeitsmaß hätten ... und so weiter.

2
"Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, den Verlust zu minimieren" Ich bin mit Ihrer Prämisse nicht einverstanden - stark und in seiner Gesamtheit. Vielleicht war es 1920 statistisch wahr, aber heute schon.
JMS

19

Ich werde eine detaillierte Antwort geben. Kann auf Anfrage weitere Zitate bereitstellen, obwohl dies nicht wirklich umstritten ist.

  • Bei der Statistik geht es nicht nur um die Maximierung der (Log-) Wahrscheinlichkeit. Das ist ein Gräuel für Bayesianer mit Prinzipien, die nur ihre Nachkommen auf den neuesten Stand bringen oder ihre Überzeugungen durch ein geeignetes Modell verbreiten.
  • In vielen Statistiken geht es um die Minimierung von Verlusten. Und so ist viel maschinelles Lernen. Die empirische Verlustminimierung hat in ML eine andere Bedeutung. Schauen Sie sich Vapniks "Die Natur des statistischen Lernens" an, um eine klare, narrative Ansicht zu erhalten.
  • Beim maschinellen Lernen geht es nicht nur um die Minimierung von Verlusten. Erstens, weil es in ML viele Bayesianer gibt; zweitens, weil eine Reihe von Anwendungen in ML mit zeitlichem Lernen und näherungsweise DP zu tun haben. Natürlich gibt es eine objektive Funktion, aber sie hat eine ganz andere Bedeutung als beim "statistischen" Lernen.

Ich glaube nicht, dass es eine Lücke zwischen den Feldern gibt, nur viele verschiedene Ansätze, die sich alle bis zu einem gewissen Grad überschneiden. Ich habe nicht das Bedürfnis, sie zu systematischen Disziplinen mit klar definierten Unterschieden und Ähnlichkeiten zu machen, und angesichts der Geschwindigkeit, mit der sie sich entwickeln, denke ich, dass es sowieso ein zum Scheitern verurteiltes Unternehmen ist.


8

Ich kann keinen Kommentar veröffentlichen (die entsprechende Stelle für diesen Kommentar), da ich nicht über genügend Ruf verfüge, aber die Antwort, die vom Eigentümer der Frage als beste Antwort akzeptiert wurde, geht daneben.

"Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, Verluste zu minimieren."

Die Wahrscheinlichkeit ist eine Verlustfunktion. Das Maximieren der Wahrscheinlichkeit ist dasselbe wie das Minimieren einer Verlustfunktion: die Abweichung, die nur das -2-fache der logarithmischen Wahrscheinlichkeitsfunktion beträgt. In ähnlicher Weise besteht das Finden einer Lösung für kleinste Quadrate darin, die Verlustfunktion zu minimieren, die die Restsumme der Quadrate beschreibt.

Sowohl ML als auch Statistik verwenden Algorithmen, um die Anpassung einiger Funktionen (im weitesten Sinne) an Daten zu optimieren. Die Optimierung beinhaltet notwendigerweise die Minimierung einer Verlustfunktion.


1
Guter Punkt, noch sind die Hauptunterschiede woanders; Zunächst geht es in der Statistik darum, ein Modell an die vorhandenen Daten anzupassen. In ML geht es darum, ein Modell an die vorhandenen Daten anzupassen. zweitens nehmen Statistiken an, dass ein Prozess, den man beobachtet, vollständig von einem peinlich trivialen "verborgenen" Modell getrieben wird, das sie ausgraben möchten, während ML VERSUCHT, ein komplexes Modell so zu machen, dass es problemunabhängig ist und sich wie die Realität verhält.

@mbq. Das ist eine ziemlich harte Karikatur von Statistiken. Ich habe in fünf Fakultäten für Universitätsstatistik gearbeitet und ich glaube nicht, dass ich jemanden getroffen habe, der über solche Statistiken nachdenken würde.
Rob Hyndman

1
@Rob Karikatur? Ich denke, das macht Statistiken so schön! Sie nehmen all diese Gaußschen und Linearitäten an und es funktioniert einfach - und es gibt einen Grund dafür, der als Taylor-Expansion bezeichnet wird. Die Welt ist die Hölle eines Komplexes, aber in linearen ca. (was oft 90% der Komplexität ausmacht) peinlich trivial. ML (und nichtparametrische Statistiken) kommen in diesen wenigen Situationen vor, in denen ein subtilerer Ansatz erforderlich ist. Dies ist einfach kein kostenloses Mittagessen - wenn Sie Theoreme wollen, brauchen Sie Annahmen; Wenn Sie keine Annahmen wollen, brauchen Sie ungefähre Methoden.

@mbq. Meinetwegen. Ich muss Ihren Kommentar falsch interpretiert haben.
Rob Hyndman

4

Es gibt eine triviale Antwort - es gibt keine Parameterschätzung beim maschinellen Lernen! Wir gehen nicht davon aus, dass unsere Modelle einigen versteckten Hintergrundmodellen entsprechen. Wir behandeln sowohl die Realität als auch das Modell als Blackbox und versuchen, die Modellbox (Zug in offizieller Terminologie) so zu schütteln, dass ihre Ausgabe der der Realitätsbox ähnelt.

Das Konzept nicht nur der Wahrscheinlichkeit, sondern der gesamten Modellauswahl auf der Grundlage der Trainingsdaten wird ersetzt, indem die Genauigkeit (wie auch immer definiert; im Prinzip die Güte bei der gewünschten Verwendung) der unsichtbaren Daten optimiert wird. Dies ermöglicht eine gekoppelte Optimierung der Präzision und des Abrufs. Daraus ergibt sich das Konzept einer Verallgemeinerungsfähigkeit, die je nach Lernertyp auf unterschiedliche Weise erreicht wird.

Die Antwort auf die zweite Frage hängt stark von den Definitionen ab. Dennoch denke ich, dass die nichtparametrische Statistik etwas ist, das die beiden verbindet.


Ich bin mir nicht sicher, ob das ganz richtig ist. Inwiefern funktionieren Methoden des maschinellen Lernens ohne Parameterschätzung (innerhalb eines parametrischen oder verteilungsfreien Satzes von Modellen)?
John L. Taylor

1
Sie schätzen / berechnen etwas (der genaue Begriff kann unterschiedlich sein). Betrachten Sie beispielsweise ein neuronales Netzwerk. Berechnen Sie nicht die Gewichte für das Netz, wenn Sie versuchen, etwas vorherzusagen? Wenn Sie außerdem sagen, dass Sie trainieren, um die Ausgabe an die Realität anzupassen, sprechen Sie anscheinend implizit über eine Art Verlustfunktion.

@John, @Srikant Lernende haben Parameter, aber dies sind keine statistischen Parameter. Man betrachte die lineare Regression y = a x (ohne freien Term für simp.). a ist ein Parameter, zu dem statistische Methoden passen. Dabei wird angenommen, dass y = a x ist. Beim maschinellen Lernen wird nur versucht, ein x zu erzeugen, wenn im Zugbereich nach x gefragt wird (dies ist sinnvoll, da nicht angenommen wird, dass y = a x ist). Dazu passen möglicherweise Hunderte von Parametern.

3
[Zitat benötigt]. Mit anderen Worten, eine faszinierende Antwort, obwohl sie (zumindest) nicht mit viel ML-Literatur zu tun hat.
Gappy

1
Klassisch ist Breimans "Statistische Modellierung: Die beiden Kulturen".

2

Ich glaube nicht, dass es beim maschinellen Lernen eine grundlegende Idee zur Parameterschätzung gibt. Die ML-Masse wird die Wahrscheinlichkeit oder den posterior gerne maximieren, solange die Algorithmen effizient sind und "genau" vorhersagen. Der Schwerpunkt liegt auf der Berechnung, und die Ergebnisse der Statistik werden häufig verwendet.

Wenn Sie nach grundlegenden Ideen im Allgemeinen suchen, ist PAC in der rechnergestützten Lerntheorie von zentraler Bedeutung. in der statistischen Lerntheorie, strukturelle Risikominimierung ; und es gibt andere Bereiche (siehe zum Beispiel den Prediction Science- Beitrag von John Langford).

In Bezug auf die Überbrückungsstatistik / ML scheint die Kluft übertrieben. Ich mochte die Antwort von gappy auf die Frage "Zwei Kulturen".


Die statistische Menge klickt zufällig in SPSS, bis der gewünschte p-Wert angezeigt wird ...

1

Sie können ein Problem mit der Wahrscheinlichkeitsmaximierung als Verlustminimierungsproblem neu schreiben, indem Sie den Verlust als negative Protokollwahrscheinlichkeit definieren. Wenn die Wahrscheinlichkeit ein Produkt unabhängiger Wahrscheinlichkeiten oder Wahrscheinlichkeitsdichten ist, ist der Verlust eine Summe unabhängiger Terme, die effizient berechnet werden können. Wenn die stochastischen Variablen normalverteilt sind, ist das entsprechende Verlustminimierungsproblem ein Problem der kleinsten Quadrate.

Wenn es möglich ist, ein Verlustminimierungsproblem durch Umschreiben einer Wahrscheinlichkeitsmaximierung zu erstellen, sollte dies vorgezogen werden, um ein Verlustminimierungsproblem von Grund auf neu zu erstellen, da dies zu einem (hoffentlich) größeren Verlustminimierungsproblem führt theoretisch begründet und weniger ad hoc. Zum Beispiel ergeben sich Gewichte, wie zum Beispiel in gewichteten kleinsten Quadraten, für die Sie normalerweise Werte schätzen müssen, einfach aus dem Prozess des Umschreibens des ursprünglichen Problems der Wahrscheinlichkeitsmaximierung und haben bereits (hoffentlich) optimale Werte.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.