Ich verstehe die Frage nicht ganz. Im Allgemeinen ergibt eine größere Stichprobe (zum Beispiel) eine bessere Klassifizierung. Es sei denn, größer bedeutet Beobachtungen von schlechter Qualität. Eine kleine Stichprobe macht viele Modelle unbrauchbar. Da baumbasierte Modelle beispielsweise eine Art "Divde and Conquer" -Ansatz darstellen, hängt ihre Effizienz stark von der Größe der Trainingsstichprobe ab.
Wenn Sie sich andererseits für statistisches Lernen in hohen Dimensionen interessieren, hat Ihr Anliegen meiner Meinung nach mehr mit dem Fluch der Dimensionalität zu tun. Wenn Ihre Stichprobengröße "klein" ist und Ihr Funktionsbereich eine "hohe" Dimension aufweist, verhalten sich Ihre Daten so, als wären sie spärlich, und die meisten Algorithmen haben eine schreckliche Zeit damit, einen Sinn daraus zu ziehen. Zitat von John A. Richards in der digitalen Bildanalyse mit Fernerkundung:
Funktionsreduzierung und Trennbarkeit
Die Klassifizierungskosten steigen mit der Anzahl der Merkmale, die zur Beschreibung von Pixelvektoren im multispektralen Raum verwendet werden - dh mit der Anzahl der einem Pixel zugeordneten Spektralbänder. Für Klassifizierer wie das Parallelepiped-Verfahren und das Verfahren mit minimalem Abstand ist dies eine lineare Zunahme mit Merkmalen. Für die Maximum-Likelihood-Klassifizierung, das am häufigsten bevorzugte Verfahren, ist der Kostenanstieg mit Merkmalen jedoch quadratisch. Daher ist es wirtschaftlich sinnvoll sicherzustellen, dass bei der Durchführung einer Klassifizierung nicht mehr Merkmale als erforderlich verwendet werden. In Abschnitt 8.2.6 wird auf die Anzahl der Trainingspixel hingewiesen, die erforderlich sind, um zuverlässige Schätzungen der Klassenzeichen zu erhalten. Insbesondere nimmt die Anzahl der erforderlichen Trainingspixel mit der Anzahl der Bänder oder Kanäle in den Daten zu. Für Daten mit hoher Dimensionalität Wie bei Bildgebungsspektrometern stellt diese Anforderung in der Praxis eine ziemliche Herausforderung dar. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. sollte verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. sollte verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt.
Dies würde bedeuten, dass das Problem zweifach ist und relevante Merkmale und die von Ihnen erwähnte Samp-Größe gefunden werden. Ab sofort können Sie das Buch kostenlos herunterladen, wenn Sie es bei Google suchen.
Eine andere Möglichkeit, Ihre Frage zu lesen, die mich besonders interessiert, wäre folgende: Beim überwachten Lernen können Sie Ihre Modelle anhand von Testdaten nur durch Kreuzvalidierung wirklich validieren und was nicht. Wenn die beschriftete Probe, aus der Sie Ihre Zug- / Testproben erhalten haben, Ihr Universum nicht gut darstellt, gelten die Validierungsergebnisse möglicherweise nicht für Ihr Universum. Wie können Sie die Repräsentativität Ihrer etikettierten Stichprobe messen?