Das Problem des maschinellen Lernens in einen Regressionsrahmen übersetzen

Angenommen, ich habe eine Gruppe von erklärenden Variablen für , sowie ein Vektor von binären Ergebnis abhängigen Variablen . So wird erst in der letzten Zeit beobachtet und nicht zu einem frühen Zeitpunkt. Der ganz allgemeine Fall ist, zu jeder Zeit für jede Einheit mehrere für zu haben $X_{it}$ $i = 1 ... N$ $t = 1 ... T$ $Y_{iT}$ $Y$ $T$ $X_{ijt}$ $j=1...K$ $i$ $t$ , aber konzentrieren wir uns der Kürze halber auf den Fall . $K=1$

Anwendungen solcher "unausgeglichenen" Paare mit zeitlich korrelierten erklärenden Variablen sind zB (tägliche Aktienkurse, vierteljährliche Dividenden), (tägliche Wetterberichte, jährliche Wirbelstürme) oder (Schachpositionsmerkmale nach jedem Zug, Gewinn / Verlust-Ergebnis bei das Ende des Spiels). $(X, Y)$

Ich interessiere mich für die (möglicherweise nichtlinearen) Regressionskoeffizienten zur Vorhersage von , da weiß, dass in den Trainingsdaten bei frühzeitigen Beobachtungen von für Endergebnis $\beta_t$ $Y_{it}$ $X_{it}$ $t < T$ $Y_{iT}$

$\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), \quad t = 1 ... T$

Vor dem Hintergrund der Ökonometrie habe ich nicht viel Regressionsmodellierung gesehen, die auf solche Daten angewendet wurde. OTOH, ich habe die folgenden Techniken des maschinellen Lernens gesehen, die auf solche Daten angewendet werden:

dabei überwachtes Lernen auf dem gesamten Datensatz, zB Minimierungs

$\sum_{i,t}\frac{1}{2}(Y_{it} - f(X_{it} \beta_t))^2$

durch einfaches Extrapolieren / Zurechnen des beobachteten zu allen vorherigen Zeitpunkten $Y$

$Y_{it} \equiv Y_{iT}, \quad t = 1... T-1$

Dies fühlt sich "falsch" an, da die zeitliche Korrelation zwischen den verschiedenen Zeitpunkten nicht berücksichtigt wird.

dabei Verstärkung Lernen , wie Temporal-Differenz mit Parameterlern und reduzierten Parametern , und die Lösung von rekursiv für durch Rückausbreitung ausgehend von $\alpha$ $\lambda$ $\beta_t$ $t=T$

$\Delta \beta_{t} = \alpha (\hat{Y}_{t+1} - \hat{Y}_{t}) \sum_{k=1}^{t} \lambda^{t-k} \nabla_{\beta} \hat{Y}_{k}$

mit weiterempfehlen der Gradient von $\nabla_{\beta} \hat{Y}$ $f()$ in Bezug auf . $\beta$

Dies scheint "korrekter" zu sein, da es die zeitliche Struktur berücksichtigt, aber die Parameter und sind eine Art "ad hoc". $\alpha$ $\lambda$

Frage : Gibt es Literatur darüber, wie die oben genannten Techniken des überwachten / verstärkten Lernens in einem Regressionsrahmen abgebildet werden können, wie er in der klassischen Statistik / Ökonometrie verwendet wird? Insbesondere möchte ich in der Lage sein, die Parameter auf einmal zu schätzen (dh für alle $\beta_{t}$ gleichzeitig)indem (nichtlineare) Least-Squares oder Maximum-Likelihood auf Modellen wie z wie $t=1...T$

$Y_{iT} = f(\sum_{t=1}^T X_{it} \beta_{t}) + \epsilon_{i}$

Mich würde auch interessieren, ob der zeitliche Unterschied Lernmetaparameter und $\alpha$ aus einer Maximum-Likelihood-Formulierung wiederhergestellt werden könnten. $\lambda$

regression machine-learning reinforcement-learning

— TemplateRex
quelle

Können Sie die Formulierung im dritten Absatz präzisieren? Sie schreiben, dass Sie

aus

vorhersagen möchten, aber die folgende Formel legt nahe, dass Sie

vorhersagen möchten .

Y_{i T}

$Y_{iT}$

X_{i t}

$X_{it}$

t < T

$t < T$

Y_{i t}

$Y_{it}$

— NRH,

@NRH tatsächlich, ich beobachte nur

, aber was ich habe in der Literatur zu überwachtes Lernen gesehen ist , dass sie zurechnet die unbeobachteten

, um gleich

und dann die passenden tun , um tatsächlich diese Fälschung erklärt

von

(dies erfolgt in Spielanwendungen, bei denen eine Bewertungsfunktion für jede Position auf das Endergebnis des Spiels angewendet wird). Entschuldigung, wenn dies aus meiner anfänglichen Formulierung nicht klar war. In jedem Fall

wäre das vorhergesagte „Ergebnis“ (in Spielanwendungen) gegeben beobachteten Ereignisse

Y_{i T}

$Y_{iT}$

Y_{i t}

$Y_{it}$

Y_{i T}

$Y_{iT}$

Y_{i t}

$Y_{it}$

X_{i t}

$X_{it}$

{\hat{Y}}_{i t}

$\hat{Y}_{it}$

X_{i t}

$X_{it}$

— TemplateRex

Ich verstehe das Setup und was Sie beobachten, aber Ihre Formulierung in der Frage ist unklar. Möchten Sie ein Modell für die Vorhersage von

trainieren, während Sie in Worten schreiben, oder möchten Sie ein Modell für die Vorhersage von

für alle

trainieren, wie in den Formeln angegeben? Vielleicht ist es nur ein Tippfehler. Wenn Sie "... Vorhersage von

..." schreiben , meinen Sie dann "... Vorhersage von

..."?

Y_{i T}

$Y_{iT}$

Y_{i t}

$Y_{it}$

t

$t$

Y_{i T}

$Y_{iT}$

Y_{i t}

$Y_{it}$

— NRH

Es ist nicht klar, warum Sie dies tun möchten. Wenn Sie die tatsächliche praktische Anwendung erklären können, erhalten Sie möglicherweise klarere Antworten. Im Allgemeinen führt die beste Vorhersage für jede Zeitspanne nur eine Regression von

für die verfügbaren Daten

separat für jedes t durch. Es ist nicht offensichtlich, dass eine gleichzeitige Herangehensweise von Nutzen ist. Ich denke, Sie müssen das statistische Modell für Ihren Datensatz angeben und dann sind die Vorteile vielleicht klarer.

Y_{T}

$Y_T$

X_{1}, \dots, X_{t}

$X_1,\dots,X_t$

— Seanv507

@NRH, ja, ich möchte

aus

vorhersagen und wissen, dass es zu

in den Trainingsdaten führt, um optimale Maßnahmen für Testdaten zu ergreifen, bei denen ich

ebenfalls beobachte, dies aber noch nicht getan habe beobachtete das Ergebnis. Wird meine Formulierung aktualisieren.

Y_{i t}

$Y_{it}$

X_{i t}

$X_{it}$

Y_{i T}

$Y_{iT}$

X_{i t}

$X_{it}$

— TemplateRex

Antworten:

Die Beschreibung des Problems ist mir nicht ganz klar, deshalb versuche ich, einige Annahmen zu erraten. Wenn dies Ihre Frage nicht beantwortet, kann es zumindest hilfreich sein, die Probleme weiter zu klären.

Das erste, was mir nicht klar ist, sind die Daten, auf die Sie Ihre Vorhersage stützen möchten. Wenn Sie basierend auf beobachteten Daten bis vorhersagen möchten, ist ein rekursiver Ansatz wie in Ihrer Methode 2 nicht sinnvoll, da dies zukünftige Daten verwenden würde, dh mit . $Y_T$ $t<T$ $X_\tau$ $\tau>t$

Zweitens geben Sie nicht an, welche Eigenschaften Ihr vorhergesagtes soll. Im Allgemeinen ist bei gegebener Information zum Zeitpunkt die bedingte Erwartung der "beste Prädiktor" von im Sinne von L2. Für den Fall, dass Sie die bedingte Erwartung wirklich vorhersagen möchten, ist das gewöhnliche kleinste Quadrat die Methode der Wahl für die praktische Schätzung. $Y_t$ $X_1,\ldots, X_t$ $t<T$ $Y_t=\text{E}[Y_T \mid X_1,\ldots, X_t]$ $Y_T$

Außerdem verstehe ich Ihre Bemerkung nicht, dass sich die Korrelationen nicht in der auf basierenden Regression widerspiegeln . Dies beinhaltet alles , was Sie wissen , bis einschließlich der Korrelationen zwischen Beobachtungen. $X_1, \ldots, X_t$ $t$

Fassen Sie das also zusammen und formulieren Sie es als Antwort: Wenn Sie eine optimale Vorhersage im L2-Sinne machen möchten, die nur auf Daten basiert, die bis , können Sie die Regression der kleinsten Quadrate verwenden. $t<T$

— gg
quelle

in den Trainingsdaten, möchte ich die Tatsache nutzen , dass ein gegebenes

Beobachtung statistisch zu den Ergebnissen führen wird

, um vorherzusagen ,

für Testdaten , wo ich nicht beachten

, bis später. Wenn Sie beispielsweise wissen, dass es nach 3 windigen Tagen wahrscheinlich am 7. Tag regnen wird, möchten Sie diese Informationen verwenden, um die Leute nach dem Wochenende nach einigen windigen Tagen davor anzuweisen, Regenschirme mitzubringen.

X_{i t}

$X_{it}$

Y_{i T}

$Y_{iT}$

{\hat{Y}}_{i t}

$\hat{Y}_{it}$

Y_{i T}

$Y_{iT}$

— TemplateRex

Zeitliche Unterschiede haben den Vorteil, dass Sie aus unvollständigen Episoden lernen können. Sequenzen, bei denen Sie noch nicht das endgültige Y erreicht haben, können weiterhin zur Anpassung an das Modell verwendet werden. Stattdessen werden nachfolgende Schätzungen verwendet. Der Effekt ähnelt der versteckten Datenimputation. implizit schreiben Sie den Rest der Sequenz gemäß Ihrem aktuellen Modell zu.
Zeitdifferenzmodelle werden normalerweise durch stochastischen Gradientenabstieg trainiert . steuert die Lernrate. Zu hoch und die Methode wird divergieren. Zu niedrig und Konvergenz zu einem lokalen Optimum wird sehr langsam sein. Konvergenz sollte jedoch immer dasselbe Modell sein. Hier ist $\alpha$
$\gamma$ $\gamma=1$

— nsweeney
quelle

α

$\alpha$

γ

$\gamma$

α

$\alpha$ Steuert die Geschwindigkeit der Konvergenz, sollte jedoch keine Auswirkung auf das endgültige Modell oder die Wahrscheinlichkeit dieses Modells haben. In der Praxis habe ich es durch Ausprobieren eingestellt. Sie müssen einstellen

γ

$\gamma$ da es die relative Bedeutung von Kurzzeit- und Langzeitvorhersagen steuert, wenn für Kurz- und Langzeitvorhersagen dieselben Parameter verwendet werden. Dies ist anwendungsspezifisch, je nachdem, was Sie mit den Vorhersagen tun möchten.

— Nsweeney