Ich habe das Fleiss-Buch nicht zur Hand, also ist das alles IIRC.
Beantwortung der Frage von @ JohnMoeller in den Kommentaren für den Moment: Die ursprüngliche Frage ist meiner Meinung nach unbeantwortbar.
Angenommen, ich habe 30 Proben und teste c1 und c2 für jede Probe und zeichne die Genauigkeit für jede Probe auf.
Wenn Sie dies tun, erhalten Sie eine 2 x 2-Kontingenztabelle, die Klassifikator 1 richtig / falsch und Klassifikator 2 richtig / falsch angibt. Welches ist der Ausgangspunkt für McNemars Test . Dies ist also ein paarweiser Vergleich, der leistungsfähiger ist als der Vergleich von "unabhängigen" Proportionen (die nicht vollständig unabhängig sind, wenn sie zufällig aus derselben endlichen Stichprobe gezogen werden).
Ich kann McNemars "Kleingedrucktes" derzeit nicht nachschlagen, aber 30 Muster sind nicht viel. Möglicherweise müssen Sie sogar von McNemar zu Fisher's genauem Test [oder etwas anderem] wechseln, der die Binomialwahrscheinlichkeiten berechnet.
Proportionen:
Es spielt keine Rolle, ob Sie ein und denselben Klassifikator 10x mit 10 Testfällen oder einmal mit all diesen 100 Fällen testen (die 2 x 2-Tabelle zählt nur alle Testfälle).
Wenn die 10 Genauigkeitsschätzungen für jeden Klassifikator in der ursprünglichen Frage durch zufälliges Halten oder 10-fache Kreuzvalidierung oder 10x Out-of-Bootstrap erhalten werden, wird normalerweise davon ausgegangen, dass die 10 für jeden Klassifikator berechneten Ersatzmodelle äquivalent sind (= haben die gleiche Genauigkeit), so dass die Testergebnisse zusammengefasst werden können *. Bei einer 10-fachen Kreuzvalidierung wird davon ausgegangen, dass die Größe der Testprobe der Gesamtzahl der Testproben entspricht. Bei den anderen Methoden bin ich mir nicht so sicher: Sie können den gleichen Fall mehr als einmal testen. Je nach Daten / Problem / Anwendung sind dies nicht so viele Informationen wie das Testen eines neuen Falls.
k
knp^=knσ2(p^)=σ2(kn)=p(1−p)n