Gibt es eine zeitgemäße Verwendung von Jackknifing?

Die Frage: Bootstrapping ist Jackknifing überlegen ; Ich frage mich jedoch, ob es Fälle gibt, in denen das Jackknifing die einzige oder zumindest eine praktikable Option zur Charakterisierung der Unsicherheit aus Parameterschätzungen ist. Auch in praktischen Situationen, wie voreingenommen / ungenau ist Jackknifing im Vergleich zu Bootstrapping, und können Jackknife-Ergebnisse vorläufige Einsichten liefern, bevor ein komplizierteres Bootstrap entwickelt wird?

Kontext: Ein Freund verwendet einen Black-Box-Algorithmus für maschinelles Lernen ( MaxEnt ), um geografische Daten zu klassifizieren, die "nur vorhanden" oder "nur positiv" sind. Die allgemeine Modellbewertung erfolgt normalerweise anhand von Kreuzvalidierungs- und ROC-Kurven. Sie verwendet jedoch die Ausgabe des Modells, um eine einzelne numerische Beschreibung der Modellausgabe abzuleiten, und möchte ein Konfidenzintervall um diese Zahl; Jackknifing scheint ein vernünftiger Weg zu sein, um die Unsicherheit um diesen Wert herum zu charakterisieren. Bootstrapping erscheint nicht relevant, da jeder Datenpunkt eine eindeutige Position auf einer Karte ist, die beim Ersetzen nicht erneut abgetastet werden kann. Möglicherweise kann das Modellierungsprogramm selbst das liefern, was es benötigt. Ich interessiere mich jedoch generell dafür, ob / wann Jackknifing nützlich sein kann.

— N Brouwer
quelle

Solche Kartierungsanwendungen - die Schätzungen anhand von Standorten mit diskreten Stichproben vornehmen - sind genau diejenigen, bei denen ich aus dem von Ihnen angegebenen Grund einen umfangreichen Einsatz von Jackknifing festgestellt habe. Dies ist ein Standardverfahren, das beispielsweise vor dem Ausführen von Kriging durchgeführt wird.

— whuber

In einigen Einstellungen für niedrige Stichproben kann die gesamte Datenmatrix singulär werden, da das Bootstrapping des Beispiels mit dem Ersetzen erfolgt. Daher können viele Modelle nicht angepasst werden.

— rep_ho

$k$

Siehe auch: Konfidenzintervall für kreuzvalidierte Klassifizierungsgenauigkeit

$k$ $i$ $k$ $i \cdot k$

$x$ $x$ $x$ Dies gilt auch für Bootstrapping, jedoch weniger direkt.

$n_s$ $n_p \ll n_s$

$n_p$
$i$ $k$ $i$

Typischerweise, dh wenn das Modell gut eingerichtet ist, wird 2. nur benötigt, um zu zeigen, dass es viel kleiner als die Varianz in 1. ist und dass das Modell daher einigermaßen stabil ist. Wenn sich herausstellt, dass 2. nicht zu vernachlässigen ist, ist es an der Zeit, aggregierte Modelle zu berücksichtigen: Die Modellaggregation hilft nur bei Abweichungen, die durch Modellinstabilität verursacht werden, und kann die Abweichungsunsicherheit bei der Leistungsmessung aufgrund der endlichen Anzahl von Testfällen nicht verringern .

$i$ $k$ $k \cdot$ $k$ $k$

Der Vorteil der Kreuzvalidierung besteht darin, dass Sie eine klare Trennung zwischen Unsicherheit aufgrund von Modellinstabilität und Unsicherheit aufgrund einer begrenzten Anzahl von Testfällen erhalten. Der entsprechende Nachteil ist natürlich, dass Sie die wahre Unsicherheit stark unterschätzen werden, wenn Sie die endliche Anzahl der tatsächlichen Fälle vergessen. Dies würde jedoch auch beim Bootstrapping passieren (wenn auch in geringerem Maße).

Bisher konzentriert sich die Argumentation auf die Messung der Leistung für das Modell, das Sie für einen bestimmten Datensatz ableiten . Wenn man bedenkt , einen Datensatz für die jeweilige Anwendung und der gegebenen Stichprobengröße, ein dritte Beitrag zur Varianz ist , die grundsätzlich nicht durch Resampling Validierung gemessen werden können, siehe zB Bengio & GRANDVALET: kein unverzerrter Schätzer der Varianz der K-Falten - Kreuz -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). Wir haben auch Zahlen, die diese drei Beiträge in Beleites et al. : Stichprobenplanung für Klassifikationsmodelle., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Ich denke, was hier passiert, ist das Ergebnis der Annahme, dass das Resampling dem Zeichnen einer vollständigen neuen Stichprobe gleicht.

Dies ist wichtig, wenn Algorithmen / Strategien / Heuristiken zur Modellbildung verglichen werden sollen, anstatt ein bestimmtes Modell für die Anwendung zu erstellen und dieses Modell zu validieren.

— cbeleites unterstützt Monica
quelle