Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)?
Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben
Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die folgenden Regeln vor:
- Ein Beitrag pro Datensatz
- Kein Link zum Datensatz
Jeder Datensatz muss zugeordnet werden
einen Namen (um herauszufinden, worum es geht) und einen Link zum Datensatz (R-Datensätze können mit dem Paketnamen benannt werden)
die Anzahl der Features (sagen wir es ist p ) die Größe des Datensatzes (sagen wir es ist n ) und die Anzahl der Labels / Klassen (sagen wir es ist k )
eine typische Fehlerrate aus Ihrer Erfahrung (geben Sie den verwendeten Algorithmus in Worten an) oder aus der Literatur (in diesem letzten Fall verknüpfen Sie das Papier)