Beim Trainieren eines parametrisierten Modells (z. B. zur Maximierung der Wahrscheinlichkeit) über einen stochastischen Gradientenabstieg in einem Datensatz wird üblicherweise angenommen, dass die Trainingsmuster aus der Trainingsdatenverteilung entnommen werden. Wenn das Ziel darin besteht, eine gemeinsame Verteilung zu modellieren , sollte jede Trainingsprobe aus dieser Verteilung gezogen werden.
Wenn das Ziel stattdessen darin besteht, eine bedingte Verteilung zu modellieren , wie ändert sich dann, wenn überhaupt, die iid-Anforderung?
- Müssen wir noch jede Stichprobe aus der gemeinsamen Verteilung ziehen?
- Sollten wir iid aus zeichnen, dann iid aus ?
- Können wir nicht iid aus zeichnen (z. B. über die Zeit korreliert), und dann iid aus zeichnen ?
Können Sie die Gültigkeit dieser drei Ansätze für den stochastischen Gradientenabstieg kommentieren? (Oder helfen Sie mir, die Frage bei Bedarf neu zu formulieren.)
Ich würde gerne # 3 machen, wenn möglich. Meine Anwendung ist das verstärkte Lernen, bei dem ich ein parametrisiertes bedingtes Modell als Kontrollrichtlinie verwende. Die Folge von Zuständen ist stark korreliert, aber die Aktionen werden aus einer stochastischen Politik abgetastet, die vom Zustand abhängig ist. Die resultierenden Stichproben (oder eine Teilmenge davon) werden zum Trainieren der Richtlinie verwendet. (Mit anderen Worten, stellen Sie sich vor, Sie führen in einer bestimmten Umgebung eine Steuerungsrichtlinie für eine lange Zeit aus und erfassen einen Datensatz mit Status- / Aktionsbeispielen. Obwohl die Status über die Zeit korreliert sind, werden die Aktionen unabhängig generiert, abhängig vom Status.) Dies ist der Situation in diesem Artikel etwas ähnlich .
Ich fand einen Artikel, Ryabko, 2006, " Mustererkennung für bedingt unabhängige Daten ", der zunächst relevant schien; Dort ist die Situation jedoch umgekehrt zu dem, was ich brauche, wo (die Bezeichnung / Kategorie / Aktion) nicht aus gezeichnet werden kann und (das Objekt / Muster / Zustand) aus ) gezeichnet werden kann .
Update: Zwei im Ryabko-Papier erwähnte Artikel ( hier und hier ) scheinen hier relevant zu sein. Sie nehmen an, dass aus einem beliebigen Prozess stammt (z. B. nicht iid, möglicherweise nicht stationär). Sie zeigen, dass Schätzer für den nächsten Nachbarn und den Kernel in diesem Fall konsistent sind. Ich bin jedoch mehr daran interessiert, ob eine Schätzung basierend auf dem stochastischen Gradientenabstieg in dieser Situation gültig ist.