Was ist "Zielgerichtete maximale Wahrscheinlichkeitserwartung"?

Ich versuche einige Artikel von Mark van der Laan zu verstehen. Er ist ein theoretischer Statistiker in Berkeley, der an Problemen arbeitet, die sich erheblich mit maschinellem Lernen überschneiden. Ein Problem für mich (neben der tiefen Mathematik) ist, dass er häufig bekannte Ansätze des maschinellen Lernens mit einer völlig anderen Terminologie beschreibt. Eines seiner Hauptkonzepte ist "Targeted Maximum Likelihood Expectation".

TMLE wird verwendet, um zensierte Beobachtungsdaten aus einem nicht kontrollierten Experiment auf eine Weise zu analysieren, die eine Effektschätzung auch bei Vorhandensein von Störfaktoren ermöglicht. Ich bin der festen Überzeugung, dass viele der gleichen Konzepte unter anderen Namen in anderen Bereichen existieren, aber ich verstehe sie noch nicht gut genug, um sie direkt auf irgendetwas abzustimmen.

Ein Versuch, die Lücke zu "Computational Data Analysis" zu schließen, ist hier:

Einstieg in die Data Science-Ära: Gezieltes Lernen und die Integration von Statistik und rechnergestützter Datenanalyse

Und eine Einführung für Statistiker gibt es hier:

Gezielte Maximum Likelihood Based Causal Inference: Teil I

Ab dem zweiten:

In diesem Artikel entwickeln wir einen bestimmten zielgerichteten Maximum-Likelihood-Schätzer für die kausalen Auswirkungen mehrerer Zeitpunktinterventionen. Dies beinhaltet die Verwendung von verlustbasiertem Superlernen, um eine anfängliche Schätzung der unbekannten Faktoren der G-Berechnungsformel zu erhalten, und anschließend die Anwendung einer zielparameterspezifischen optimalen Fluktuationsfunktion (ungünstigstes parametrisches Submodell) auf jeden geschätzten Faktor. Schätzen der Schwankungsparameter mit maximaler Wahrscheinlichkeitsschätzung und Iterieren dieses Aktualisierungsschritts des Anfangsfaktors bis zur Konvergenz. Dieser iterative Aktualisierungsschritt für die angestrebte maximale Wahrscheinlichkeit macht den resultierenden Schätzer des Kausaleffekts doppelt robust in dem Sinne, dass er konsistent ist, wenn einer der anfänglichen Schätzer konsistent ist. oder der Schätzer der optimalen Fluktuationsfunktion ist konsistent. Die optimale Fluktuationsfunktion ist korrekt spezifiziert, wenn die bedingten Verteilungen der Knoten in dem Kausalgraphen, auf den eingegriffen wird, korrekt spezifiziert sind.

In seiner Terminologie ist "Superlernen" das Lernen eines Ensembles mit einem theoretisch soliden, nicht negativen Gewichtungsschema. Was aber meint er mit "Anwenden einer zielparameterspezifischen optimalen Fluktuationsfunktion (ungünstigstes parametrisches Submodell) auf jeden geschätzten Faktor"?

Oder in drei verschiedene Fragen unterteilt: Hat TMLE eine Parallele im maschinellen Lernen, was ist ein "ungünstigstes parametrisches Submodell" und was ist eine "Fluktuationsfunktion" in anderen Bereichen?

— Nathan Kurz
quelle

Ein Grund dafür, dass die Terminologie möglicherweise unbekannt ist, ist, dass das Ziel von TMLE darin besteht, den durchschnittlichen Behandlungseffekt abzuschätzen - kausale Schlussfolgerung, keine Vorhersage. Als ich "Super Learner" in Artikeln über TMLE las, dachte ich, dass die Autoren den Begriff aus dem SuperLearner-Paket in R für die Erstellung von Ensemblemodellen entlehnten.

— RobertF

Ich stimme zu, dass van der Laan die Tendenz hat, neue Namen für bereits vorhandene Ideen zu erfinden (z. B. für den Superschüler), aber TMLE gehört meines Wissens nicht dazu. Es ist eigentlich eine sehr clevere Idee, und ich habe nichts in der Community für maschinelles Lernen gesehen, das ähnlich aussieht (obwohl ich vielleicht nur unwissend bin). Die Ideen stammen aus der Theorie semiparametrisch effizienter Schätzungsgleichungen, über die Statistiker meiner Meinung nach viel mehr nachdenken als über ML-Leute.

Die Idee ist im Wesentlichen dies. Angenommen, ist ein wahrer Datenerzeugungsmechanismus und es besteht ein Interesse an einer bestimmten Funktion . Mit einer solchen Funktion ist oft eine Schätzgleichung verbunden $P_0$ $\Psi(P_0)$

\sum_{i} φ (Y_{i} ∣ θ) = 0,

$\sum_i \varphi(Y_i \mid \theta) = 0,$

wobei ist , in irgendeiner Weise bestimmt durch , und enthält genügend Informationen zu identifizieren . wird , so dass . Das Lösen dieser Gleichung in kann zum Beispiel viel einfacher sein als das Abschätzen von . Diese Schätzgleichung ist effizient in dem Sinne , dass jeder effizienter Schätzer von zu einem asymptotisch äquivalent ist , die diese Gleichung löst. $\theta = \theta(P)$ $P$ $\Psi$ $\varphi$ $E_{P} \varphi(Y \mid \theta) = 0$ $\theta$ $P_0$ $\Psi(P_0)$ (Anmerkung: Ich bin ein bisschen locker mit dem Begriff "effizient", da ich nur die Heuristik beschreibe.) Die Theorie hinter solchen Schätzungsgleichungen ist recht elegant, wobei dieses Buch die kanonische Referenz ist. Hier könnte man Standarddefinitionen von "ungünstigsten Untermodellen" finden; das sind keine Begriffe, die van der Laan erfunden hat.

$P_0$ $P_0$ $\Psi(P_0)$ $P_0$ $\hat P$ $\Psi(\hat P)$ $\sqrt n$ $P_0$ $\Psi$

$\hat p$

{\hat{p}}_{1, ϵ} = \frac{\hat{p} \exp (ϵ φ (Y ∣ θ))}{\int \hat{p} \exp (ϵ φ (y ∣ θ)) d y}

$\hat p_{1, \epsilon} = \frac{\hat p \exp(\epsilon \ \varphi(Y \mid \theta))}{\int \hat p \exp(\epsilon \ \varphi(y \mid \theta)) \ dy}$

$\epsilon$ $\epsilon$ $\epsilon = 0$ $\hat p$ $\Psi$ $\epsilon \ne 0$ $\hat p_1$ $\hat p$

{\hat{p}}_{2, ϵ} \propto {\hat{p}}_{1, \hat{ϵ}} \exp (ϵ φ (Y ∣ θ) .

$\hat p_{2, \epsilon} \propto \hat p_{1, \hat \epsilon} \exp(\epsilon \ \varphi(Y \mid \theta).$

und so weiter, bis wir etwas im Grenzbereich haben, das die effiziente Schätzgleichung erfüllt.

— Kerl
quelle

„Ich bin damit einverstanden , dass van der Laan eine Tendenz hat , neue Namen zu erfinden , für bereits bestehende Ideen“ - Ja, sehen Sie diese Einführung in TMLE: biostats.bepress.com/ucbbiostat/paper252 , wo van der Laan uses „zufällig vergröbert“ zu bedeuten Austauschbarkeit und "Annahme einer experimentellen Behandlungszuordnung (ETA)" bedeuten Positivität. :-) In unserem Bereich ist das nicht ungewöhnlich. Datenwissenschaftler verwenden Begriffe wie Rückruf, Präzision und A / B-Tests, die ich im College als Sensitivität, positiver Vorhersagewert und Hypothesentest gelernt habe.

— RobertF

@RobertF CAR geht auf Heitjan und Rubin zurück und ist eine Verallgemeinerung von MAR. Rubin hat MAR erfunden und auch das Rahmenwerk für potenzielle Ergebnisse popularisiert. Daher erscheint mir die Verwendung von CAR als Sammelbegriff für Annahmen vom Typ Ignorabilität / Austauschbarkeit fair.

— Kerl