Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so scheint es, dass viele Personen in diesem Bereich sich etwas wiederholen. Das Analysieren von Tweets, Facebook-Posts, Wikipedia-Artikeln usw. ist beispielsweise Teil vieler Big-Data-Probleme.
Auf einige dieser Datensätze kann mit öffentlichen APIs zugegriffen werden, die von der Anbieterseite bereitgestellt werden. In der Regel fehlen jedoch einige wichtige Informationen oder Messdaten in diesen APIs, und alle müssen immer wieder dieselben Analysen durchführen. Zum Beispiel kann es in vielen Big-Data-Anwendungen nützlich sein, über ein Basiscluster von Twitter- / Facebook-Benutzern zu verfügen, obwohl das Clustering von Benutzern von verschiedenen Anwendungsfällen und der Auswahl von Funktionen abhängig sein kann. Dies wird weder von der API bereitgestellt noch ist es in unabhängigen Datensätzen öffentlich verfügbar .
Gibt es einen Index oder eine öffentlich zugängliche Hosting-Site für Datensätze, die wertvolle Datensätze enthält, die bei der Lösung anderer Big-Data-Probleme wiederverwendet werden können? Ich meine so etwas wie GitHub (oder eine Gruppe von Websites / öffentlichen Datensätzen oder zumindest eine umfassende Auflistung) für die Datenwissenschaft. Wenn nein, warum gibt es keine solche Plattform für Data Science? Der kommerzielle Wert von Daten, müssen Datensätze regelmäßig aktualisiert werden, ...? Können wir kein Open-Source-Modell für die gemeinsame Nutzung von Datensätzen haben, die für Datenwissenschaftler entwickelt wurden?