Angenommen, ich habe eine kleine Stichprobengröße, z. B. N = 100, und zwei Klassen. Wie soll ich die Trainings-, Kreuzvalidierungs- und Testsatzgrößen für maschinelles Lernen auswählen?
Ich würde intuitiv auswählen
- Trainingsset Größe als 50
- Kreuzvalidierungssatz Größe 25 und
- Testgröße als 25.
Aber wahrscheinlich macht das mehr oder weniger Sinn. Wie soll ich diese Werte wirklich bestimmen? Darf ich verschiedene Optionen ausprobieren (obwohl ich denke, dass dies nicht so vorzuziehen ist ... erhöhte Wahrscheinlichkeit des Überlernens)?
Was wäre, wenn ich mehr als zwei Klassen hätte?