TLDR:
Mein Datensatz ist ziemlich klein (120) Proben. Wenn ich eine 10-fache Kreuzvalidierung durchführe, sollte ich:
Sammeln Sie die Ausgaben von jeder Testfalte, verknüpfen Sie sie zu einem Vektor und berechnen Sie dann den Fehler für diesen vollständigen Vorhersagevektor (120 Stichproben).
Oder sollte ich stattdessen den Fehler an den Ausgaben berechnen, die ich bei jeder Falte erhalte (mit 12 Abtastungen pro Falte) und dann meine endgültige Fehlerschätzung als Durchschnitt der 10-fachen Fehlerschätzungen erhalten?
Gibt es wissenschaftliche Arbeiten, in denen die Unterschiede zwischen diesen Techniken diskutiert werden?
Hintergrund: Potenzielle Beziehung zu Makro- / Mikro-Scores in der Mehrfachetikettenklassifizierung:
Ich denke, diese Frage hängt möglicherweise mit dem Unterschied zwischen Mikro- und Makro- Durchschnittswerten zusammen, die häufig in einer Mehrfachetiketten-Klassifizierungsaufgabe verwendet werden (z. B. 5 Etiketten).
In der Multi-Label-Einstellung werden die Mikrodurchschnittswerte berechnet, indem eine aggregierte Kontingenztabelle aus wahr-positiv, falsch-positiv, wahr-negativ und falsch-negativ für alle 5 Klassifikator-Vorhersagen für 120 Stichproben erstellt wird. Diese Kontingenztabelle wird dann verwendet, um die Mikrogenauigkeit, den Mikroabruf und das Mikro-F-Maß zu berechnen. Wenn wir also 120 Proben und fünf Klassifikatoren haben, werden die Mikromaßnahmen anhand von 600 Vorhersagen berechnet (120 Proben * 5 Etiketten).
Bei Verwendung der Makrovariante berechnet man die Maße (Genauigkeit, Rückruf usw.) unabhängig auf jedem Etikett und schließlich werden diese Maße gemittelt.
Die Idee hinter dem Unterschied zwischen Mikro- und Makroschätzungen kann dahingehend erweitert werden, was in einer K-fachen Einstellung in einem Binärklassifizierungsproblem getan werden kann. Für 10-fach können wir entweder durchschnittlich über 10 Werte ( Makro Maßnahme) oder die 10 Experimente verketten und die Berechnung Mikro Maßnahmen.
Hintergrund - Erweitertes Beispiel:
Das folgende Beispiel veranschaulicht die Frage. Nehmen wir an, wir haben 12 Testmuster und wir haben 10 Falten:
- Falte 1 : TP = 4, FP = 0, TN = 8 Präzision = 1,0
- Falte 2 : TP = 4, FP = 0, TN = 8 Präzision = 1,0
- Falte 3 : TP = 4, FP = 0, TN = 8 Präzision = 1,0
- Falte 4 : TP = 0, FP = 12, Präzision = 0
- Falte 5 .. Falte 10 : Alle haben das gleiche TP = 0, FP = 12 und Präzision = 0
wo ich die folgende notation benutzt habe:
TP = Anzahl wahrer Positive, FP = Anzahl falsch positiver, TN = Anzahl wahrer Negative
Die Ergebnisse sind:
- Durchschnittliche Genauigkeit über 10 Falten = 3/10 = 0,3
- Präzision bei der Verkettung der Vorhersagen der 10 Falten = TP / TP + FP = 12/12 + 84 = 0,125
Beachten Sie, dass die Werte 0,3 und 0,125 sehr unterschiedlich sind !