Der Suchbegriff, den Sie suchen, ist "Lernkurve", die die (durchschnittliche) Modellleistung als Funktion der Trainingsstichprobengröße angibt.
Lernkurven hängen von vielen Dingen ab, z
- Klassifizierungsmethode
- Komplexität des Klassifikators
- wie gut die Klassen getrennt sind.
(Ich denke, für LDA mit zwei Klassen können Sie möglicherweise einige theoretische Leistungsberechnungen ableiten, aber die entscheidende Tatsache ist immer, ob Ihre Daten tatsächlich der Annahme entsprechen, dass der COV multivariate Normalwert gleich ist. Ich würde für beide LDA eine Simulation durchführen.) Annahmen und Resampling Ihrer bereits vorhandenen Daten).
n
Ein weiterer Aspekt, den Sie möglicherweise berücksichtigen müssen, ist, dass es in der Regel nicht ausreicht, einen guten Klassifikator zu trainieren. Sie müssen jedoch auch nachweisen, dass der Klassifikator gut (oder gut genug) ist. Sie müssen daher auch den Stichprobenumfang für die Validierung mit einer bestimmten Genauigkeit planen. Wenn Sie diese Ergebnisse als Bruchteil der Erfolge unter so vielen Testfällen angeben müssen (z. B. Genauigkeit / Präzision / Sensitivität / positiver Vorhersagewert des Herstellers oder Verbrauchers) und die zugrunde liegende Klassifizierungsaufgabe recht einfach ist, kann dies mehr unabhängige Fälle erfordern als das Training von ein gutes Modell.
Als Faustregel für das Training wird die Stichprobengröße normalerweise in Bezug auf die Komplexität des Modells (Anzahl der Fälle: Anzahl der Variationen) diskutiert, während absolute Grenzen für die Größe der Teststichprobe für eine erforderliche Genauigkeit der Leistungsmessung angegeben werden können.
In diesem Artikel erklären wir diese Dinge ausführlicher und erläutern, wie man Lernkurven erstellt:
Beleites, C. und Neugebauer, U. und Bocklitz, T. und Krafft, C. und Popp, J .: Planung der Stichprobengröße für Klassifizierungsmodelle. Anal Chim Acta, 2013, 760, 25 & ndash; 33.
DOI: 10.1016 / j.aca.2012.11.007
akzeptiertes Manuskript auf arXiv: 1211.1323
Dies ist der "Teaser", der ein einfaches Klassifizierungsproblem aufzeigt (wir haben tatsächlich eine einfache Unterscheidung wie diese in unserem Klassifizierungsproblem, aber andere Klassen sind weitaus schwieriger zu unterscheiden):
Wir haben nicht versucht, auf größere Trainingsstichprobengrößen zu extrapolieren, um festzustellen, wie viel mehr Trainingsfälle erforderlich sind, da die Teststichprobengrößen unser Engpass sind und größere Trainingsstichprobengrößen uns komplexere Modelle konstruieren lassen würden, sodass eine Extrapolation fraglich ist. Für die Art von Datensätzen, die ich habe, würde ich dies iterativ angehen und eine Reihe neuer Fälle messen, um zu zeigen, wie viel sich die Dinge verbessert haben, mehr Fälle messen und so weiter.
Dies mag für Sie anders sein, aber das Papier enthält Literaturhinweise zu Papieren, bei denen eine Extrapolation auf höhere Stichprobengrößen durchgeführt wird, um die erforderliche Anzahl von Stichproben abzuschätzen.