Einfluss der Instabilität auf die Vorhersagen verschiedener Ersatzmodelle
Eine der Annahmen hinter der Binomialanalyse ist jedoch die gleiche Erfolgswahrscheinlichkeit für jeden Versuch, und ich bin mir nicht sicher, ob die Methode hinter der Klassifizierung von "richtig" oder "falsch" in der Kreuzvalidierung als gegeben angesehen werden kann die gleiche Erfolgswahrscheinlichkeit.
Normalerweise ist diese Gleichwertigkeit eine Annahme, die auch erforderlich ist, damit Sie die Ergebnisse der verschiedenen Ersatzmodelle zusammenfassen können.
In der Praxis ist Ihre Intuition, dass diese Annahme verletzt werden könnte, oft richtig. Sie können jedoch messen, ob dies der Fall ist. Hier finde ich die iterierte Kreuzvalidierung hilfreich: Anhand der Stabilität von Vorhersagen für denselben Fall durch verschiedene Ersatzmodelle können Sie beurteilen, ob die Modelle äquivalent sind (stabile Vorhersagen) oder nicht.
Hier ist ein Schema der iterierten (auch wiederholten) fachen Kreuzvalidierung:k
Der Unterricht ist rot und blau. Die Kreise rechts symbolisieren die Vorhersagen. In jeder Iteration wird jede Stichprobe genau einmal vorhergesagt. Normalerweise wird der Mittelwert als Leistungsschätzung verwendet, wobei implizit davon ausgegangen wird, dass die Leistung der Ersatzmodelle gleich ist. Wenn Sie nach jeder Stichprobe anhand der Vorhersagen suchen, die von verschiedenen Ersatzmodellen (dh über die Spalten hinweg) gemacht wurden, können Sie sehen, wie stabil die Vorhersagen für diese Stichprobe sind.i ⋅ k
Sie können auch die Leistung für jede Iteration berechnen (Block mit 3 Zeilen in der Zeichnung). Jede Abweichung zwischen diesen bedeutet, dass die Annahme, dass Ersatzmodelle äquivalent sind (zueinander und darüber hinaus zu dem in allen Fällen aufgebauten "großen Modell"), nicht erfüllt ist. Dies zeigt Ihnen aber auch, wie viel Instabilität Sie haben. Für den Binomialanteil denke ich, solange die wahre Leistung gleich ist (dh unabhängig davon, ob immer dieselben Fälle falsch vorhergesagt werden oder ob dieselbe Anzahl, aber unterschiedliche Fälle falsch vorhergesagt werden). Ich weiß nicht, ob man für die Leistung der Ersatzmodelle vernünftigerweise eine bestimmte Verteilung annehmen könnte. Aber ich denke, es ist auf jeden Fall ein Vorteil gegenüber der derzeit üblichen Meldung von Klassifizierungsfehlern, wenn Sie diese Instabilität überhaupt melden. Ersatzmodelle wurden bereits für jede der Iterationen gepoolt, die Instabilitätsvarianz beträgt ungefähr das k- fache der beobachteten Varianz zwischen den Iterationen.kk
≪
nki
Die Zeichnung ist eine neuere Version von Abb. 5 in diesem Artikel: Beleites, C. & Salzer, R.: Bewertung und Verbesserung der Stabilität chemometrischer Modelle in Situationen mit kleinen Probengrößen, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Beachten Sie, dass ich beim Schreiben des Papiers die verschiedenen Varianzquellen , die ich hier erklärt habe, noch nicht vollständig erkannt habe - denken Sie daran. Ich denke daher, dass die ArgumentationFür eine effektive Schätzung der Probengröße ist dies nicht korrekt, obwohl die Schlussfolgerung der Anwendung, dass unterschiedliche Gewebetypen innerhalb jedes Patienten ungefähr so viele Gesamtinformationen liefern wie ein neuer Patient mit einem bestimmten Gewebetyp, wahrscheinlich immer noch gültig ist (ich habe einen völlig anderen Typ von Beweise, die auch in diese Richtung weisen). Ich bin mir jedoch noch nicht ganz sicher (noch wie ich es besser machen und somit überprüfen kann), und dieses Problem hat nichts mit Ihrer Frage zu tun.
Welche Leistung soll für das Binomial-Konfidenzintervall verwendet werden?
Bisher habe ich die durchschnittlich beobachtete Leistung verwendet. Sie können auch die schlechteste beobachtete Leistung verwenden: Je näher die beobachtete Leistung an 0,5 liegt, desto größer ist die Varianz und damit das Konfidenzintervall. Konfidenzintervalle der beobachteten Leistung, die 0,5 am nächsten kommen, geben Ihnen daher eine konservative "Sicherheitsmarge".
Beachten Sie, dass einige Methoden zur Berechnung von Binomial-Konfidenzintervallen auch dann funktionieren, wenn die beobachtete Anzahl von Erfolgen keine Ganzzahl ist. Ich verwende die "Integration der Bayes'schen posterioren Wahrscheinlichkeit", wie in
Ross, TD, beschrieben: Genaue Konfidenzintervalle für Binomialproportionen und Poisson-Ratenschätzung, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Ich weiß es nicht für Matlab, aber in R können Sie binom::binom.bayes
beide Formparameter auf 1 setzen).
n
Siehe auch: Bengio, Y. und Grandvalet, Y.: Kein unvoreingenommener Schätzer der Varianz der K-fachen Kreuzvalidierung, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Mehr über diese Dinge nachzudenken steht auf meiner Forschungsliste ... aber da ich aus der experimentellen Wissenschaft komme, möchte ich die theoretischen und simulativen Schlussfolgerungen gerne mit experimentellen Daten ergänzen - was hier schwierig ist, da ich eine große benötigen würde Satz unabhängiger Fälle für Referenztests)
Update: Ist es gerechtfertigt, eine Biomialverteilung anzunehmen?
k
n
npn