Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]

35

Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)?

Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben

Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die folgenden Regeln vor:

Ein Beitrag pro Datensatz
Kein Link zum Datensatz
Jeder Datensatz muss zugeordnet werden
- einen Namen (um herauszufinden, worum es geht) und einen Link zum Datensatz (R-Datensätze können mit dem Paketnamen benannt werden)
- die Anzahl der Features (sagen wir es ist p ) die Größe des Datensatzes (sagen wir es ist n ) und die Anzahl der Labels / Klassen (sagen wir es ist k )
- eine typische Fehlerrate aus Ihrer Erfahrung (geben Sie den verwendeten Algorithmus in Worten an) oder aus der Literatur (in diesem letzten Fall verknüpfen Sie das Papier)

— Robin Girard
quelle

+1, aber die von NIPS2003 haben nur train.labels - das NIPS2003-Papier sagt deutlich "Validierungs- und Testset-Etiketten werden zurückgehalten".

— Denis

Vielen Dank. Der Kommentar zu NIPS bezieht sich auf die Antwort von @mbq.

— Robin Girard

Hat hier jemand einen hochdimensionalen Datensatz mit mehr als zwei Klassenbeschriftungen?

— hlin117

3

Dorothea
n = 1950
p = 100000 (0,1 M, die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (~ 10x unsymmetrisch)
Ab NIPS2003 .

— user88
quelle

Können Sie erklären, wie das 100000 Funktionen ist? Ich schaue mir die Trainingsdaten an und jede Zeile hat vielleicht 2500 Ganzzahlen pro Zeile.

— JeremyKun

Es ist ein spärliches Array. Ganzzahl N bedeutet, dass Attribut N den Wert 1 hat.

3

Gisette
n = 13500
p = 5000 (die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .

— user88
quelle

3

Dexter
n = 2600
p = 20000 (10k + 53 ist künstliches Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .

— user88
quelle

Ich verstehe nicht ... ein Satz pro Person?

@robin & @mbq Ich würde vorschlagen, einen Datensatz pro Post zu behalten. Dies, damit die Menschen mit Stimmen angeben können, welche der dort vorgeschlagenen auch vorschlagen / unterstützen

— Peter Smit

@ Peter, OK, ich folge deiner Idee, ich habe die Frage entsprechend geändert.

— Robin Girard

3

Arcene
n = 900
p = 10000 (3k ist künstlich hinzugefügtes Rauschen)
k = 2 (~ ausgeglichen)
Ab NIPS2003 .

— user88
quelle

2

Prostata (Genexpressionsarray)

k = 2
n = 48 + 52
p = 6033

Verfügbar über (unter anderem) R-Paket spls Name des Datensatzes: Prostata

Fehlerrate = 3/102 (siehe hier ) Ich denke auch, dass es Papier gibt, das eine Fehlerrate von 1/102 aufweist. Ich würde sagen, das ist ein einfacher Testfall.

— Robin Girard
quelle