Was bedeutet es, dass die Trainingsdaten durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert werden?

Ich habe das Deep Learning-Buch gelesen und bin auf folgenden Absatz gestoßen (Seite 109, zweiter Absatz):

Die Trainings- und Testdaten werden durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert, die als Datengenerierungsprozess bezeichnet wird. Wir machen normalerweise eine Reihe von Annahmen, die zusammen als iid-Annahmen bekannt sind. Diese Annahmen bestehen darin, dass die Beispiele in jedem Datensatz unabhängig voneinander sind und dass der Trainingssatz und der Testsatz identisch verteilt sind und aus derselben Wahrscheinlichkeitsverteilung stammen. Diese Annahme ermöglicht es uns, den Datenerzeugungsprozess mit einer Wahrscheinlichkeitsverteilung über ein einzelnes Beispiel zu beschreiben. Die gleiche Verteilung wird dann verwendet, um jedes Zugbeispiel und jedes Testbeispiel zu erzeugen. Wir nennen diese gemeinsame zugrunde liegende Verteilung die datengenerierende Verteilung, die mit $p_{\text{data}}$ . Dieser probabilistische Rahmen und die iid-Annahmen ermöglichen es uns, die Beziehung zwischen Trainingsfehler und Testfehler mathematisch zu untersuchen.

Kann mir bitte jemand die Bedeutung dieses Absatzes erklären?

Auf Seite 122 des letzten Absatzes finden Sie auch ein Beispiel

eine Menge von Proben , die unabhängig und identisch gemäß einer Bernoulli-Verteilung mit dem Mittelwert . $\{x(1), \dots, x(m) \}$ $\theta$

Was bedeutet das?

Hier sind einige spezifischere Fragen.

Die Wahrscheinlichkeitsverteilung über Datensätze: Was sind die Datensätze? Wie wird die Wahrscheinlichkeitsverteilung erzeugt?
Die Beispiele sind unabhängig voneinander. Können Sie mir ein Beispiel geben, wo die Beispiele abhängig sind?
Gezeichnet aus der gleichen Wahrscheinlichkeitsverteilung. Angenommen, die Wahrscheinlichkeitsverteilung ist Gaußsch. Bedeutet der Begriff "Gleiche Wahrscheinlichkeitsverteilung", dass alle Beispiele aus einer Gaußschen Verteilung mit demselben Mittelwert und derselben Varianz stammen?
"Diese Annahme ermöglicht es uns". Was bedeutet das?
Schließlich wird für den letzten Absatz von Seite 122 angegeben, dass die Proben der Bernoulli-Verteilung folgen. Was bedeutet das intuitiv?

deep-learning

— bescheiden
quelle

Der dritte Satz in dem von Ihnen zitierten Absatz ist der Schlüssel. Können Sie uns genauer sagen, was daran unklar ist?

— Stephan Kolassa

@StephanKolassa Details zur Frage hinzugefügt.

— bescheiden

Vielen Dank. Ihre Änderungen klären die Dinge. Es ist immer noch eine ziemlich breite Frage, aber die Antwort von @ sww ist bereits ziemlich auf den Punkt.

— Stephan Kolassa

Wahrscheinlichkeitsverteilung über Datensätze: Was sind die Datensätze? Wie wird die Wahrscheinlichkeitsverteilung erzeugt?

Sobald wir die zugrunde liegenden Verteilungen der Eingabedaten schätzen können, wissen wir im Wesentlichen, wie sie ausgewählt werden, und können gute Vorhersagen treffen. (generatives Modell). Normalerweise können wir eine zugrunde liegende Verteilung gemäß unserer Annahme annehmen (induktive Vorspannung). Wenn wir zum Beispiel glauben, dass es eine hohe Wahrscheinlichkeit gibt, dass Werte nahe Null sind, können wir eine Gaußsche Verteilung mit dem Mittelwert und die Parameter wie die Varianz abstimmen, wenn wir trainieren. Datensätze bestehen beispielsweise aus allen Münzwürfen, und die angenommene Verteilung ist binomisch. Wenn wir sagen, dass die Log-Wahrscheinlichkeit für die tatsächlichen Datenpunkte maximiert wird, erhalten wir die Parameter, mit denen der Datensatz in die angenommene Verteilung passt. $0$

Die Beispiele sind unabhängig voneinander. Können Sie mir ein Beispiel geben, wo die Beispiele abhängig sind?

Zum Beispiel werfen wir eine Münze und wenn wir einen Kopf haben, werfen wir eine andere, sonst nicht. Hier besteht eine Abhängigkeit zwischen nachfolgenden Würfen

Gezeichnet aus der gleichen Wahrscheinlichkeitsverteilung. Angenommen, die Wahrscheinlichkeitsverteilung ist Gaußsch. Bedeutet der Begriff "gleiche Wahrscheinlichkeitsverteilung", dass alle Beispiele aus einer Gaußschen Verteilung mit demselben Mittelwert und derselben Varianz stammen?

"Diese Annahme ermöglicht es uns". Was bedeutet das?

Ja. Deshalb wird (4) gesagt. Sobald Sie eine Wahrscheinlichkeitsverteilung aus einem Beispiel haben, benötigen Sie keine weiteren Beispiele, um den Datengenerierungsprozess zu beschreiben.

Schließlich wird für den letzten Absatz von Seite 122 angegeben, dass die Proben der Bernoulli-Verteilung folgen. Was bedeutet das intuitiv?

Dies bedeutet, dass jedes Beispiel als Münzwurf betrachtet werden kann. Wenn das Experiment mehrere Münzwürfe wäre, würde jeder Münzwurf unabhängig sein, mit einer Wahrscheinlichkeit, dass der Kopf . Wenn Sie ein anderes Experiment auswählen, kann das Ergebnis jedes Beispiels als Münzwurf oder n-dimensionaler Würfel betrachtet werden. $\frac{1}{2}$

Das Generieren von Beispielen bedeutet, eine Verteilung zu erhalten, die dem am nächsten kommt, was wir im Datensatz für das Training sehen. Dies wird erreicht, indem eine Verteilung angenommen und die Wahrscheinlichkeit des gegebenen Datensatzes maximiert und die optimalen Parameter ausgegeben werden.

— sww
quelle

Vielen Dank. Können Sie bitte erklären, wie die Trainings- und Testdaten aus dem generierten Datenprozess generiert werden? Sobald wir die Wahrscheinlichkeitsverteilung aus einem Beispiel haben, kennen wir die Wahrscheinlichkeitsverteilung anderer Beispiele. Aber wie werden die Beispiele tatsächlich generiert?

— bescheiden

@rjmessibarca Es spielt keine Rolle, wer oder was die Beispiele generiert hat, aber es sind die Beispiele, die wir erhalten oder erhalten können, die nach einer uns bekannten (Optimierungsszenario) oder uns unbekannten Verteilung (Problem des maschinellen Lernens) generiert werden.

— Lerner Zhang

Was meinst du mit "hoher Wahrscheinlichkeit"? Bedeutet das Konfidenzniveau? Und ich stelle fest, dass diese Terminologie in der Theorie des maschinellen Lernens sehr häufig vorkommt. So etwas hält mit "hoher Wahrscheinlichkeit". Ich freue mich auf Ihre Antwort. Danke

— keqiao li