Was genau bedeutet es, Informationen auszuleihen?


11

Ich spreche oft über das Ausleihen von Informationen oder den Austausch von Informationen in Bayes'schen hierarchischen Modellen. Ich kann anscheinend keine klare Antwort darauf bekommen, was dies tatsächlich bedeutet und ob es nur für Bayes'sche hierarchische Modelle gilt. Ich komme auf die Idee: Einige Ebenen in Ihrer Hierarchie haben einen gemeinsamen Parameter. Ich habe jedoch keine Ahnung, wie sich dies auf "Ausleihen von Informationen" auswirkt.

  1. Ist "Ausleihen von Informationen" / "Teilen von Informationen" ein Modewort, das die Leute gerne wegwerfen?

  2. Gibt es ein Beispiel mit Posterioren in geschlossener Form, das dieses Phänomen des Teilens veranschaulicht?

  3. Ist dies einzigartig für eine Bayes'sche Analyse? Wenn ich Beispiele für "Ausleihen von Informationen" sehe, handelt es sich im Allgemeinen nur um gemischte Modelle. Vielleicht habe ich diese Modelle auf altmodische Weise gelernt, aber ich sehe kein Teilen.

Ich bin nicht daran interessiert, eine philosophische Debatte über Methoden zu beginnen. Ich bin nur neugierig auf die Verwendung dieses Begriffs.


1
Für Ihre Frage 2 kann dieser Link aufleuchten: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement

Ich würde gerne eine Erwähnung der Informationstheorie in den Antworten hier sehen.
Shadowtalker

Antworten:


10

Dies ist ein Begriff, der speziell aus empirischen Bayes (EB) stammt. Tatsächlich existiert das Konzept, auf das er sich bezieht, in der wahren Bayes'schen Folgerung nicht. Der ursprüngliche Begriff war "Kreditstärke", der bereits in den 1960er Jahren von John Tukey geprägt und in den 1970er und 1980er Jahren von Bradley Efron und Carl Morris in einer Reihe statistischer Artikel zu Steins Paradoxon und parametrischem EB weiter populär gemacht wurde. Viele Menschen verwenden heute "Ausleihen von Informationen" oder "Teilen von Informationen" als Synonyme für dasselbe Konzept. Der Grund, warum Sie es im Zusammenhang mit gemischten Modellen hören können, ist, dass die häufigsten Analysen für gemischte Modelle eine EB-Interpretation haben.

EB hat viele Anwendungen und gilt für viele statistische Modelle. Der Kontext besteht jedoch immer darin, dass Sie eine große Anzahl (möglicherweise unabhängiger) Fälle haben und versuchen, jeweils einen bestimmten Parameter (wie den Mittelwert oder die Varianz) zu schätzen. Bei der Bayes'schen Inferenz machen Sie posteriore Inferenzen über den Parameter, basierend sowohl auf den beobachteten Daten für jeden Fall als auch auf der vorherigen Verteilung für diesen Parameter. Bei der EB-Inferenz wird die vorherige Verteilung für den Parameter aus der gesamten Sammlung von Datenfällen geschätzt, wonach die Inferenz wie bei der Bayes'schen Inferenz abläuft. Wenn Sie also den Parameter für einen bestimmten Fall schätzen, verwenden Sie sowohl die Daten für diesen Fall als auch die geschätzte vorherige Verteilung, und letztere repräsentiert die "Information" oder "Stärke".

Jetzt können Sie sehen, warum EB "Kredite" hat, echte Bayes jedoch nicht. In echten Bayes existiert die vorherige Verteilung bereits und muss daher nicht angefleht oder ausgeliehen werden. In EB wurde die vorherige Verteilung aus den beobachteten Daten selbst erstellt. Wenn wir auf einen bestimmten Fall schließen, verwenden wir alle beobachteten Informationen aus diesem Fall und ein wenig Informationen aus jedem der anderen Fälle. Wir sagen, es ist nur "geliehen", weil die Informationen zurückgegeben werden, wenn wir fortfahren, um Rückschlüsse auf den nächsten Fall zu ziehen.

Die Idee von EB und "Ausleihen von Informationen" wird in der statistischen Genomik häufig verwendet, wenn jeder "Fall" normalerweise ein Gen oder ein genomisches Merkmal ist (Smyth, 2004; Phipson et al., 2016).

Verweise

Efron, Bradley und Carl Morris. Steins Paradoxon in der Statistik. Scientific American 236, No. 5 (1977): 119 & ndash; 127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Lineare Modelle und empirische Bayes-Methoden zur Bewertung der differentiellen Expression in Microarray-Experimenten. Statistische Anwendungen in der Genetik und Molekularbiologie Band 3, Ausgabe 1, Artikel 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS und Smyth, GK (2016). Eine robuste Hyperparameterschätzung schützt vor hypervariablen Genen und verbessert die Fähigkeit, differentielle Expression zu erkennen. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
Ich denke nicht, dass diese Interpretation richtig ist. Zum Beispiel leihen Modelle mit gemischten Effekten Informationen aus, können jedoch in einem traditionellen Bayes'schen Kontext analysiert werden
Cliff AB,

1
@CliffAB Wenn Sie sich mit gemischten Modellanalysen befassen, werden Sie feststellen, dass es sich bei der Analyse praktisch immer um empirische Bayes handelt und nicht um echte Bayes. Die meisten Autoren werden natürlich sagen, dass sie Bayes machen, wenn es tatsächlich EB ist, weil die meisten Autoren den Unterschied nicht machen. Wenn Sie denken, können Sie ein Beispiel für eine echte Bayes-Mischmodellanalyse geben, dann lade ich Sie dazu ein.
Gordon Smyth

1
@CliffAB In der Minderheit der Fälle, in denen eine echte Bayes-Analyse für gemischte Modelle verwendet wird (z. B. von MCMC oder Winbugs), wäre die Verwendung des Begriffs "Informationen ausleihen" IMO fehl am Platz. Es würde sicherlich nicht mit dem übereinstimmen, was Tukey und Efron mit "Ausleihen" meinten.
Gordon Smyth

1
@CliffAB Ich stimme zu, dass brms ein Bayes'sches Paket ist, weshalb der Begriff "Informationen ausleihen" in der brms-Dokumentation nicht vorkommt.
Gordon Smyth

1
Einfache Bayes'sche Modelle "leihen sich keine Informationen aus", aber Mehrebenenmodelle, obwohl ich denke, dass der populärere Begriff in diesem Bereich "partielles Pooling" ist. Hier ist eine klassische Diskussion darüber von A. Gelman. Wenn Sie die Idee akzeptieren, dass Mischeffektmodelle "Informationen ausleihen", bin ich mir im Allgemeinen nicht sicher, wie man sagen kann, dass Bayes'sche Mischeffekte dies nicht tun. Der Prior wird auf der Ebene unterhalb der geliehenen Informationen angezeigt . Wenn Sie sagen , dass Modelle mit gemischten Effekten keine Informationen ausleihen, erklärt dies meine Verwirrung über Ihre Behauptung.
Cliff AB

5

Stellen Sie sich ein einfaches Problem vor, wie das Schätzen der Mittelwerte mehrerer Gruppen. Wenn Ihr Modell sie als völlig unabhängig behandelt, sind die einzigen Informationen, die Sie über jeden Mittelwert haben, die Informationen innerhalb dieser Gruppe. Wenn Ihr Modell ihre Mittelwerte als etwas verwandt behandelt (wie in einem Modell mit gemischten Effekten), sind die Schätzungen genauer, da Informationen aus anderen Gruppen die Schätzung für eine bestimmte Gruppe informieren (regulieren, auf einen gemeinsamen Mittelwert verkleinern). Das ist ein Beispiel für das Ausleihen von Informationen.

Der Begriff taucht in versicherungsmathematischen Arbeiten im Zusammenhang mit der Glaubwürdigkeit auf (nicht unbedingt mit dem spezifischen Begriff „Kreditaufnahme“, obwohl die Kreditaufnahme in diesem Sinne in den Formeln ausdrücklich angegeben ist). Dies reicht weit zurück, bis vor mindestens einem Jahrhundert, mit klaren Vorläufern, die bis in die Mitte des neunzehnten Jahrhunderts zurückreichen. Siehe zum Beispiel Longley-Cook, LH (1962) Eine Einführung in die Glaubwürdigkeitstheorie PCAS, 49, 194-221.

Hier ist Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):

Hier besteht beispielsweise ein Risiko, das eindeutig als Maschinenwerkstatt einzustufen ist. In Ermangelung anderer Informationen sollte daher die Werkstattrate gefälscht werden, nämlich die durchschnittliche Rate für alle Risiken dieser Klasse. Auf der anderen Seite hat das Risiko eine eigene Erfahrung gemacht. Wenn das Risiko groß ist, kann dies ein besserer Hinweis auf seine Gefahr sein als die Klassenerfahrung. Unabhängig davon, ob das Risiko groß oder klein ist, haben beide Elemente ihren Wert als Beweismittel, und beide müssen berücksichtigt werden. Die Schwierigkeit ergibt sich aus der Tatsache, dass die Beweise im Allgemeinen widersprüchlich sind; Das Problem besteht daher darin, ein Kriterium zu finden und anzuwenden, das jedem das richtige Gewicht verleiht.

Während der Begriff Ausleihe hier fehlt, ist der Gedanke, die Informationen auf Gruppenebene zu verwenden, um uns über diese Maschinenwerkstatt zu informieren, eindeutig vorhanden. [Die Begriffe bleiben unverändert, wenn "Kreditstärke" und "Kreditinformationen" auf diese Situation angewendet werden.]


1
Ich schätze das Beispiel, da es klar erklärt, was das Ausleihen bewirkt, aber ich suche nach einer genaueren Definition.
EliK

Eine genaue Definition eines ungenauen, intuitiven Begriffs? Ich nehme an, man könnte möglich sein - man könnte es vielleicht als Reduzierung der Varianz definieren, indem man Parameter über Gruppen hinweg in Beziehung setzt, aber man könnte sehr leicht plausible Verwendungen des Begriffs ausschließen, indem man dies tut
Glen_b

Mir war nicht klar, ob die ungenaue Intuition eine tatsächliche Definition hatte oder nicht.
EliK

3

σR2

σR2σR2

σR2σR2σRσR2. Je weniger Informationen in den Daten enthalten sind, desto wichtiger werden die vorherigen Informationen. Wenn Sie dies noch nicht getan haben, empfehle ich, Modelle mit gemischten Effekten mit nur wenigen Motiven zu simulieren. Sie werden überrascht sein, wie instabil die Schätzungen der Frequentist-Methoden sind, insbesondere wenn Sie nur ein oder zwei Ausreißer hinzufügen ... und wie oft werden echte Datensätze ohne Ausreißer angezeigt? Ich glaube, dieses Problem wird in der Bayesian Data Analysis von Gelman et al. Behandelt, aber leider glaube ich nicht, dass es öffentlich verfügbar ist, also kein Hyperlink.

Schließlich handelt es sich bei der Mehrebenenmodellierung nicht nur um gemischte Effekte, obwohl diese am häufigsten vorkommen. Jedes Modell, in dem Parameter nicht nur von Prioritäten und Daten, sondern auch von anderen unbekannten Parametern beeinflusst werden, kann als Mehrebenenmodell bezeichnet werden. Natürlich ist dies ein sehr flexibler Satz von Modellen, der jedoch mit Tools wie Stan, NIMBLE, JAGS usw. von Grund auf neu geschrieben und mit minimalem Arbeitsaufwand angepasst werden kann. Insofern bin ich mir nicht sicher, ob ich mehrstufig sagen würde Modellierung ist "Hype"; Grundsätzlich können Sie jedes Modell schreiben, das als gerichteter azyklischer Graph dargestellt werden kannund passen Sie es sofort an (vorausgesetzt, es hat eine angemessene Laufzeit). Dies bietet viel mehr Leistung und potenzielle Kreativität als herkömmliche Optionen (dh Regressionsmodellpakete), erfordert jedoch nicht, dass ein komplettes R-Paket von Grund auf neu erstellt wird, nur um auf einen neuen Modelltyp zu passen.


Danke für die Antwort. Zur Verdeutlichung habe ich nicht vorgeschlagen, dass mehrstufige Modellierung "Hype" ist. Ich habe gefragt, ob "Ausleihen von Informationen" eine genaue Bedeutung hat oder ob dieser bestimmte Begriff nur ein Hype ist.
EliK

@EliK: Ich bin nicht sicher, ob es eine genaue Bedeutung hat; Gordon Smyth gibt an, was manche für eine genaue Bedeutung halten, dh Empirical Bayes, aber die Art und Weise, wie ich diesen heute gebräuchlichen Begriff sehe, scheint nicht zu dieser Bedeutung zu passen. Persönlich denke ich nicht, dass es nur ein Hype-Begriff ist; Es ist genau die Motivation, Modelle mit gemischten Effekten gegenüber Modellen mit festen Effekten zu verwenden, obwohl dies über das Standard-Regressionsmodell-Framework hinausgeht. Ich denke, viele Leute sagen die vageere "Mehrebenenmodellierung" anstelle der präziseren "Mischeffektmodellierung", weil sie jetzt jedoch modischer ist.
Cliff AB

Ich würde sagen, der Hype ist in ML-Zeitungen und Blogs, wo argumentiert wird, dass Sie Bayes'sche Modelle benötigen , um Mehrebenenmodelle zu implementieren. Ich würde mich für ein Beispiel interessieren - wo man es mit einem kreuzvalidierten regulierten Modell vergleicht (zur Vorhersage)
seanv507

Für das, was es wert ist, ist die einzige Alternative zu Bayesian Maximum Likelihood, das nur Bayesian mit einem einheitlichen Prior ist. Das ist also nicht wirklich falsch.
Shadowtalker

1
@shadowtalker: Wenn Sie MLE-Methoden für Bayesian in Betracht ziehen, ist das Wort Bayesian in der Statistik grundsätzlich bedeutungslos. Dies steht jedoch im Einklang mit einigen der Fehler, die ich in der ML-Literatur sehe.
Cliff AB

2

Ich gehe davon aus, dass Sie, da Sie maschinelles Lernen markiert haben, eher an Vorhersage als an Inferenz interessiert sind. (Ich glaube, ich stimme mit der Antwort von @Glen_b überein, übersetze aber nur in diesen Kontext / dieses Vokabular.)

Ich würde in diesem Fall behaupten, dass es ein Schlagwort ist. Ein reguliertes lineares Modell mit einer Gruppenvariablen leiht Informationen aus: Die Vorhersage auf individueller Ebene ist eine Kombination aus Gruppenmittelwert und individuellem Effekt. Eine Möglichkeit, sich die l1 / l2-Regularisierung vorzustellen, besteht darin, einen Koeffizienten pro Zuordnung des Gesamtfehlers zuzuweisen, da eine Gruppenvariable mehr Stichproben als eine einzelne Variable betrifft, besteht der Druck, einen Gruppeneffekt abzuschätzen, wobei eine geringere Abweichung von übrig bleibt Gruppeneffekt für jede einzelne Variable.

Für einzelne Punkte mit genügend Daten ist der individuelle Effekt "stark", für diejenigen mit wenig Daten ist der Effekt schwach.

Ich denke, der einfachste Weg, dies zu sehen, besteht darin, die L1-Regularisierung und 3 Personen derselben Gruppe mit demselben Effekt zu berücksichtigen. Unregelmäßig hat das Problem unendlich viele Lösungen, während die Regularisierung eine einzigartige Lösung bietet.

Das Zuweisen des gesamten Effekts zum Gruppenkoeffizienten hat die niedrigste l1-Norm, da wir nur 1 Wert benötigen, um 3 Personen abzudecken. Umgekehrt hat das Zuweisen des gesamten Effekts zu den einzelnen Koeffizienten das Schlimmste, nämlich das Dreifache der l1-Norm zum Zuweisen des Effekts zum Gruppenkoeffizienten.

Beachten Sie, dass wir so viele Hierarchien haben können, wie wir möchten, und dass Interaktionen in ähnlicher Weise betroffen sind: Durch die Regularisierung werden Effekte auf Hauptvariablen übertragen, anstatt auf seltenere Interaktionen.

Der Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - verbunden durch @IsabellaGhement gibt ein Angebot für aufgenommene Kredite Stärke

"Dieser Effekt wird manchmal als Schrumpfung bezeichnet, da die Schrumpfung bei extremeren Werten zu einem vernünftigeren, durchschnittlicheren Wert führt. Im lme4-Buch bietet Douglas Bates eine Alternative zur Schrumpfung [Name]."

Der Begriff „Schrumpfung“ kann negative Konnotationen haben. John Tukey zog es vor, den Prozess als Schätzungen für einzelne Probanden zu bezeichnen, die sich gegenseitig „ausleihen“. Dies ist ein grundlegender Unterschied zwischen den Modellen, die Modellen mit gemischten Effekten zugrunde liegen, und den Modellen mit streng festen Effekten. In einem Modell mit gemischten Effekten gehen wir davon aus, dass die Ebenen eines Gruppierungsfaktors eine Auswahl aus einer Population sind und daher zu einem gewissen Grad Merkmale aufweisen können. Folglich werden die Vorhersagen aus einem Modell mit gemischten Effekten im Vergleich zu denen aus Modellen mit streng festen Effekten abgeschwächt.


Was ist Vorhersage, wenn nicht eine bestimmte Art von Folgerung?
Shadowtalker

0

Eine weitere Quelle, die ich zu diesem Thema empfehlen möchte und die ich besonders lehrreich finde, ist David Robinsons Einführung in empirische Bayes .

Sein laufendes Beispiel ist das, ob es einem Baseballspieler gelingt, den nächsten Ball zu treffen, der auf ihn geworfen wird. Die Schlüsselidee ist, dass man, wenn ein Spieler schon seit Jahren da ist, ein ziemlich klares Bild davon hat, wie fähig er ist, und insbesondere seinen beobachteten Schlagdurchschnitt als eine ziemlich gute Schätzung der Erfolgswahrscheinlichkeit auf dem nächsten Platz verwenden kann.

Umgekehrt hat ein Spieler, der gerade angefangen hat, in einer Liga zu spielen, noch nicht viel von seinem tatsächlichen Talent preisgegeben. Es scheint daher eine kluge Entscheidung zu sein, die Schätzung seiner Erfolgswahrscheinlichkeit auf einen Gesamtmittelwert anzupassen, wenn er in seinen ersten Spielen besonders erfolgreich oder erfolglos war, da dies wahrscheinlich zumindest teilweise auf Glück oder Pech zurückzuführen ist .

Als kleiner Punkt scheint der Begriff "Ausleihen" sicherlich nicht in dem Sinne verwendet zu werden, dass etwas, das ausgeliehen wurde, irgendwann zurückgegeben werden müsste ;-).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.