Zunächst würde ich empfehlen, mit den Beispieldaten zu beginnen, die mit der Software bereitgestellt werden. Die meisten Softwareverteilungen enthalten Beispieldaten, mit denen Sie sich mit dem Algorithmus vertraut machen können, ohne sich mit Datentypen zu befassen und die Daten in das richtige Format für den Algorithmus zu ringen. Selbst wenn Sie einen Algorithmus von Grund auf neu erstellen, können Sie mit dem Beispiel einer ähnlichen Implementierung beginnen und die Leistung vergleichen.
Zweitens würde ich empfehlen, mit synthetischen Datensätzen zu experimentieren, um ein Gefühl dafür zu bekommen, wie der Algorithmus funktioniert, wenn Sie wissen, wie die Daten generiert wurden und wie das Signal-Rausch-Verhältnis ist.
In R können Sie mit diesem Befehl alle Datensätze in den derzeit installierten Paketen auflisten:
data(package = installed.packages()[, 1])
Die mlbench des R-Pakets enthält reale Datensätze und kann synthetische Datensätze generieren , die für die Untersuchung der Algorithmusleistung nützlich sind.
Pythons Scikit-Learn enthält Beispieldaten und generiert auch einen synthetischen Datensatz / Spielzeugdatensatz.
SAS hat die Ausbildung Daten - Set zum Download zur Verfügung und die SPSS Beispieldaten werden mit der Software unter C: \ Programme \ IBM \ SPSS \ Statistics \ 22 \ Samples
Zuletzt würde ich mir Daten in freier Wildbahn ansehen. Ich würde die Leistung verschiedener Algorithmen und Optimierungsparameter an realen Datensätzen vergleichen. Dies erfordert normalerweise viel mehr Arbeit, da Sie selten Datasets mit Datentypen und Strukturen finden, die Sie direkt in Ihre Algorithmen einfügen können.
Für Daten in freier Wildbahn würde ich empfehlen:
reddits Datensatzarchiv
KDnugget's Liste