Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]


35

Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)?

Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben

Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die folgenden Regeln vor:

  1. Ein Beitrag pro Datensatz
  2. Kein Link zum Datensatz
  3. Jeder Datensatz muss zugeordnet werden

    • einen Namen (um herauszufinden, worum es geht) und einen Link zum Datensatz (R-Datensätze können mit dem Paketnamen benannt werden)

    • die Anzahl der Features (sagen wir es ist p ) die Größe des Datensatzes (sagen wir es ist n ) und die Anzahl der Labels / Klassen (sagen wir es ist k )

    • eine typische Fehlerrate aus Ihrer Erfahrung (geben Sie den verwendeten Algorithmus in Worten an) oder aus der Literatur (in diesem letzten Fall verknüpfen Sie das Papier)


+1, aber die von NIPS2003 haben nur train.labels - das NIPS2003-Papier sagt deutlich "Validierungs- und Testset-Etiketten werden zurückgehalten".
Denis

Vielen Dank. Der Kommentar zu NIPS bezieht sich auf die Antwort von @mbq.
Robin Girard

Hat hier jemand einen hochdimensionalen Datensatz mit mehr als zwei Klassenbeschriftungen?
hlin117

Antworten:


3

Dorothea
n = 1950
p = 100000 (0,1 M, die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (~ 10x unsymmetrisch)
Ab NIPS2003 .


Können Sie erklären, wie das 100000 Funktionen ist? Ich schaue mir die Trainingsdaten an und jede Zeile hat vielleicht 2500 Ganzzahlen pro Zeile.
JeremyKun

Es ist ein spärliches Array. Ganzzahl N bedeutet, dass Attribut N den Wert 1 hat.


3

Dexter
n = 2600
p = 20000 (10k + 53 ist künstliches Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .


Ich verstehe nicht ... ein Satz pro Person?

@robin & @mbq Ich würde vorschlagen, einen Datensatz pro Post zu behalten. Dies, damit die Menschen mit Stimmen angeben können, welche der dort vorgeschlagenen auch vorschlagen / unterstützen
Peter Smit

@ Peter, OK, ich folge deiner Idee, ich habe die Frage entsprechend geändert.
Robin Girard


2

Prostata (Genexpressionsarray)

  • k = 2
  • n = 48 + 52
  • p = 6033

Verfügbar über (unter anderem) R-Paket spls Name des Datensatzes: Prostata

Fehlerrate = 3/102 (siehe hier ) Ich denke auch, dass es Papier gibt, das eine Fehlerrate von 1/102 aufweist. Ich würde sagen, das ist ein einfacher Testfall.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.