Es gibt mehrere klassische Datensätze für Klassifizierungs- / Regressionsaufgaben des maschinellen Lernens. Die beliebtesten sind:
- Irisblumendatensatz ;
- Titanic-Datensatz ;
- Motor Trend Cars ;
- usw.
Aber kennt jemand ähnliche Datensätze für die Netzwerkanalyse / Graphentheorie? Konkreter - Ich suche nach Gold-Standarddatensätzen zum Vergleichen / Bewerten / Lernen:
- Zentralitätsmaßnahmen;
- Netzwerk-Clustering-Algorithmen.
Ich brauche keine große Liste öffentlich verfügbarer Netzwerke / Grafiken, sondern ein paar wirklich wichtige Datensätze.
BEARBEITEN:
Es ist ziemlich schwierig, genaue Funktionen für den "Goldstandard-Datensatz" bereitzustellen, aber hier sind einige Gedanken. Ich denke, ein echter klassischer Datensatz sollte diese Kriterien erfüllen:
- Mehrere Referenzen in Artikeln und Lehrbüchern;
- Aufnahme in bekannte Netzwerkanalyse-Softwarepakete;
- Ausreichende Existenzzeit;
- Verwendung in einer Reihe von Kursen zur Graphanalyse.
In Bezug auf mein Interessengebiet benötige ich auch gekennzeichnete Klassen für Eckpunkte und / oder vorberechnete (oder vordefinierte) "Autoritätswerte" (dh Zentralitätsschätzungen). Nachdem ich diese Frage gestellt hatte, suchte ich weiter und hier sind einige geeignete Beispiele:
- Zacharys Karate Club : 1977 eingeführt, mehr als 1,5.000 Mal zitiert (laut Google Scholar), haben Scheitelpunkte das Attribut Fraktion (das zum Clustering verwendet werden kann).
- Erdos Collaboration Network : Leider habe ich dieses Netzwerk nicht in Form einer Datendatei gefunden, aber es ist ziemlich berühmt. Wenn jemand das Netzwerk mit den Spezialisierungsdaten von Mathematikern bereichert, kann es auch zum Testen von Clustering-Algorithmen verwendet werden.