Was ist der Unterschied zwischen Lernen und Inferenz?

20

Forschungsarbeiten zum maschinellen Lernen behandeln Lernen und Inferenz oft als zwei getrennte Aufgaben, aber es ist mir nicht ganz klar, worin der Unterschied besteht. In diesem Buch verwenden sie zum Beispiel Bayes-Statistiken für beide Arten von Aufgaben, liefern jedoch keine Motivation für diese Unterscheidung. Ich habe einige vage Ideen, worum es gehen könnte, aber ich würde gerne eine solide Definition und vielleicht auch Widerlegungen oder Erweiterungen meiner Ideen sehen:

Der Unterschied zwischen dem Ableiten der Werte latenter Variablen für einen bestimmten Datenpunkt und dem Lernen eines geeigneten Modells für die Daten.
Der Unterschied zwischen dem Extrahieren von Varianzen (Inferenz) und dem Lernen der Invarianzen, um Varianzen extrahieren zu können (durch Lernen der Dynamik des Eingaberaums / Prozesses / der Welt).
Die neurowissenschaftliche Analogie könnte eine kurzfristige Potenzierung / Depression (Gedächtnisspuren) gegenüber einer langfristigen Potenzierung / Depression sein.

machine-learning terminology

— Lenar Hoyt
quelle

4

Nicht sicher, ob dies hilft, aber in der Statistik wird unterschieden, ob Sie über das Lernen als Inferenz (meistens Bayes) oder als Schätzung (meistens Frequentist) nachdenken möchten. Für die ersteren ist das Lernen über alles - latente Variablen, Parameter, Vorhersagen, Modelle - eine Folgerung (die eine Verteilung zurückgibt). Für letztere können einige Lernprobleme eine Folgerung sein und andere ein Schätzungsproblem (das eine Schätzung und einen Stichprobentheoretisch motivierten Unsicherheitsbereich dafür zurückgibt).

— Conjugateprior

5

"Lernen" ist nur eine beschwörende Metapher für den Prozess des Trainings eines maschinellen Lernalgorithmus. Ich glaube nicht, dass hier viel Einsicht gewonnen werden kann.

— Sycorax sagt Reinstate Monica

1

Mögliches Duplikat der beiden Kulturen: Statistik vs. maschinelles Lernen?

— Winks

1

@Winks Hast du die verlinkte Frage überhaupt gelesen ? Keine der Antworten trifft die Unterscheidung, die ich fordere, explizit.

— Lenar Hoyt

1

@conjugateprior Beim maschinellen Lernen würde niemand sagen, dass "das Lernen über alles - latente Variablen, Parameter, Vorhersagen, Modelle - eine Folgerung ist". Lernen und Schlußfolgerung werden als völlig getrennt betrachtet, obwohl beide zu Verteilungen führen können.

— Neil G

11

Ich stimme Neil Gs Antwort zu, aber vielleicht hilft diese alternative Formulierung auch:

Betrachten Sie die Einstellung eines einfachen Gaußschen Mischungsmodells. Hier können wir uns die Modellparameter als die Menge der Gaußschen Komponenten des Mischungsmodells vorstellen (jede ihrer Mittelwerte und Varianzen und das Gewicht jeder einzelnen Person in der Mischung).

Bei einer gegebenen Menge von Modellparametern besteht die Schlussfolgerung darin, welche Komponente wahrscheinlich ein einzelnes gegebenes Beispiel erzeugt hat, üblicherweise in Form einer "Verantwortung" für jede Komponente. Hier sind die latenten Variablen nur die einzige Kennung, für die die Komponente den angegebenen Vektor generiert hat, und wir schließen daraus, welche Komponente dies wahrscheinlich gewesen ist. (In diesem Fall ist die Folgerung einfach, in komplexeren Modellen wird sie jedoch ziemlich kompliziert.)

Beim Lernen werden anhand einer Reihe von Stichproben aus dem Modell die Modellparameter (oder eine Verteilung über Modellparameter) ermittelt, die am besten zu den angegebenen Daten passen: Auswahl der Gaußschen Mittelwerte, Varianzen und Gewichtungen.

Man kann sich vorstellen, dass der Lernalgorithmus "Expectation-Maximization" eine Inferenz für den Trainingssatz durchführt, dann die besten Parameter unter Berücksichtigung dieser Inferenz lernt und dann wiederholt. Inferenz wird häufig im Lernprozess auf diese Weise verwendet, aber es ist auch von unabhängigem Interesse, z. B. zu wählen, welche Komponente einen bestimmten Datenpunkt in einem Gaußschen Mischungsmodell erzeugt hat, um den wahrscheinlichsten verborgenen Zustand in einem verborgenen Markov-Modell zu bestimmen. fehlende Werte in einem allgemeineren grafischen Modell zu unterstellen, ....

— Dougal
quelle

1

Und eine kleine Einschränkung, die man wählen kann, um die Dinge auf diese Weise in Lernen und Folgerungen aufzuteilen , aber man kann auch das ganze Los als Folgerung wählen: stats.stackexchange.com/questions/180582/…

— conjugateprior

Warum so viele Zeilen? Ich möchte eine einfache Antwort sehen, die sie in zwei Sätzen unterscheidet. Auch ist nicht jeder mit GMMs oder EM vertraut.

— Nr.

9

Inference wählt eine Konfiguration basierend auf einer einzelnen Eingabe. Lernen ist die Auswahl von Parametern anhand einiger Trainingsbeispiele.

In dem energiebasierten Modellrahmen (eine Art und Weise an nahezu alle Maschinenbetrachtungslernarchitekturen) Inferenz wählt eine Konfiguration eine zu minimieren Energiefunktion während der Halteparameter festgelegt; Das Lernen wählt die Parameter, um die Verlustfunktion zu minimieren .

Wie Conjugateprior betont, verwenden andere Leute unterschiedliche Begriffe für die gleiche Sache. Zum Beispiel verwendet Bischof "Schlußfolgerung" und "Entscheidung", um Lernen bzw. Schlußfolgerung zu bedeuten. Kausaler Rückschluss bedeutet Lernen. Unabhängig davon, für welche Begriffe Sie sich entscheiden, unterscheiden sich diese beiden Konzepte.

Die neurologische Analogie ist ein Muster, bei dem Neuronen ausgelöst werden. Eine Reihe von Verbindungsstärken sind die Parameter.

— Neil G
quelle

@mcb Ich weiß immer noch nicht, was du mit "Abweichungen" meinst. "Invarianzen" ist nicht einmal ein Wort im Wörterbuch. Ja, es gibt viele Lernalgorithmen, die auf einer abgeleiteten Konfiguration beruhen, wie sie in Dougals Antwort beschrieben ist.

— Neil G

@mcb Ich verstehe auch deine Fragen nicht. Vielleicht wäre es hilfreich, ein Beispielmodell anzugeben und genau anzugeben, über welche Verteilung / Varianzen / Invarianten (?) Sie sprechen.

— Dougal

Danke für deine Antworten. Vielleicht habe ich etwas falsch verstanden.

— Lenar Hoyt

@NeilG Ich glaube , diese Terminologie meist in ML Visionsarbeit verwendet wird , wo Entscheidungen Einstufung sollte ‚invariant‘ sein Objekt Translation, Rotation, rescaling usw. Kann ein gutes Kurzreferenz finden, aber es ist das: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition

— conjugateprior

@conjugateprior Ich hatte das Gefühl, dass es das war, worauf er hinauswollte, aber ich wollte sehen, ob er seine Frage klarstellen würde.

— Neil G

4

Das sieht nach klassischer disziplinenübergreifender Jargonverwirrung aus. Das OP scheint eine neurowissenschaftliche Terminologie zu verwenden, bei der die beiden fraglichen Begriffe unterschiedliche Konnotationen haben können. Da sich Cross Validated im Allgemeinen mit Statistik und Maching Learning befasst, werde ich versuchen, die Frage zu beantworten, die auf der allgemeinen Verwendung dieser Begriffe in diesen Bereichen basiert.

In der klassischen Statistik ist Inferenz einfach das Entnehmen des Wissens über eine Stichprobe und eine mathematische Aussage über die Population, aus der sie (hoffentlich) repräsentativ ist. Aus dem kanonischen Lehrbuch von Casella & Berger (2002): "Das Thema der Wahrscheinlichkeitstheorie ist die Grundlage, auf der alle Statistiken aufbauen. Durch diese Modelle können Statistiker Rückschlüsse auf Populationen ziehen, die nur auf der Untersuchung von Rückschlüssen beruhen ein Teil des Ganzen ". In der Statistik bezieht sich die Inferenz speziell auf p-Werte, Teststatistiken und Stichprobenverteilungen usw.

Was das Lernen angeht, denke ich, dass diese Tabelle aus Wassermans All of Statistics (2003) hilfreich sein könnte:

— Zoë Clark
quelle

Dies stimmt nicht mit vielen anderen Lehrbüchern überein, einschließlich des in den Kommentaren erwähnten Buches von Bishop. Klassifizierung ist eine Art überwachtes Lernen, wenn die Zielvariablen Kategorien sind. Das Wort "Schätzung" allein ist vage: Normalerweise meinen wir "Dichteschätzung" oder "Parameterschätzung" oder "sequentielle Schätzung" oder "Maximum-Likelihood-Schätzung".

— Neil G

1

Auch Bayes-Netz ist nicht nur ein gerichteter azyklischer Graph! Es ist eine Art Tag, dessen Knoten Sätze darstellen und dessen Kanten probabilistische Abhängigkeiten darstellen. Es gibt bedingte Unabhängigkeitsbeziehungen an.

— Neil G

1

@NeilG Ganz so. Die nächste statistische Übersetzung wäre wahrscheinlich "Strukturgleichungsmodell"

— conjugateprior

2

Und in einer erschreckenden Menge von Statistiken sollten sich zwei Zeilen über Daten befinden: CS: Trainingsdaten, Statistik: Daten. CS: Testdaten, Statistik: wut?

— Conjugateprior

Stat 101: wut = eine weitere (hoffentlich zufällige) Stichprobe aus Ihrer Bevölkerung ...

— Zoë Clark

-1

Es ist seltsam, dass dies von niemand anderem erwähnt wurde, aber Sie können nur dann Rückschlüsse ziehen, wenn Sie eine Wahrscheinlichkeitsverteilung haben. Hier, um Wiki zu zitieren, das Oxford Dictionary zitiert:

Statistische Inferenz ist der Prozess der Verwendung von Datenanalyse, um Eigenschaften einer zugrunde liegenden Wahrscheinlichkeitsverteilung abzuleiten (Oxford Dictionary of Statistics).

https://en.wikipedia.org/wiki/Statistical_inference

Bei herkömmlichen neuronalen Netzen, k-NN- oder Vanille-SVMs gibt es weder eine Wahrscheinlichkeitsdichte, die geschätzt werden kann, noch Annahmen zu einer Dichte, sodass dort keine statistischen Rückschlüsse möglich sind. Nur Training / Lernen. Für die meisten (alle?) Statistischen Verfahren können Sie jedoch sowohl Inferenz- als auch Lernverfahren verwenden, da diese Verfahren einige Annahmen über die Verteilung der betreffenden Population enthalten.

— SWIM S.
quelle

Das ist falsch. Auf jeden Fall können Sie neuronale Netze so interpretieren, dass sie eine Distribution erzeugen, wenn Sie möchten. Siehe z. B. Amari 1998.

— Neil G

Es ist nicht falsch oder spezifizieren. Sie KÖNNEN interpretieren, aber ursprünglich gibt es keine solche Interpretation.

— SWIM S.

Es ist falsch, weil die Leute den Begriff Inferenz mit Modellen wie Autoenciders verwenden.

— Neil G

Ist es also falsch, weil eine Gruppe von Menschen den Begriff falsch verwendet? Oder weil sie eine probabilistische Interpretation für ihre NNs haben (ich bin nicht tief mit Autoencodern vertraut)? Ich habe logisch begründet, warum sich ein Begriff vom anderen unterscheidet. In Anbetracht der obigen Definition sehe ich, dass diejenigen, die den Begriff Inferenz mit NNs, k-NNs oder SVMs verwenden (außer bei probabilistischer Interpretation), die Notation ziemlich missbrauchen.

— SCHWIMMEN