Öffentlich verfügbare Datensätze

167

Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so scheint es, dass viele Personen in diesem Bereich sich etwas wiederholen. Das Analysieren von Tweets, Facebook-Posts, Wikipedia-Artikeln usw. ist beispielsweise Teil vieler Big-Data-Probleme.

Auf einige dieser Datensätze kann mit öffentlichen APIs zugegriffen werden, die von der Anbieterseite bereitgestellt werden. In der Regel fehlen jedoch einige wichtige Informationen oder Messdaten in diesen APIs, und alle müssen immer wieder dieselben Analysen durchführen. Zum Beispiel kann es in vielen Big-Data-Anwendungen nützlich sein, über ein Basiscluster von Twitter- / Facebook-Benutzern zu verfügen, obwohl das Clustering von Benutzern von verschiedenen Anwendungsfällen und der Auswahl von Funktionen abhängig sein kann. Dies wird weder von der API bereitgestellt noch ist es in unabhängigen Datensätzen öffentlich verfügbar .

Gibt es einen Index oder eine öffentlich zugängliche Hosting-Site für Datensätze, die wertvolle Datensätze enthält, die bei der Lösung anderer Big-Data-Probleme wiederverwendet werden können? Ich meine so etwas wie GitHub (oder eine Gruppe von Websites / öffentlichen Datensätzen oder zumindest eine umfassende Auflistung) für die Datenwissenschaft. Wenn nein, warum gibt es keine solche Plattform für Data Science? Der kommerzielle Wert von Daten, müssen Datensätze regelmäßig aktualisiert werden, ...? Können wir kein Open-Source-Modell für die gemeinsame Nutzung von Datensätzen haben, die für Datenwissenschaftler entwickelt wurden?

open-source dataset

— Amir Ali Akbari
quelle

18

Diese Frage könnte für die dedizierten opendata.SE angemessener sein . Das heißt, ich drücke die Daumen für dat , das anstrebt, ein "Git für Daten" zu werden.

— 18.

2

@ojdo Danke, ich habe noch nie von opendata.SE gehört. Auch diese interessante (und sehr ähnliche) Frage fand ich dort.

— Amir Ali Akbari

2

Siehe quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

Ich habe keine guten kostenlosen umfassenden Datensätze für typische Business Intelligence-Anwendungen gefunden. Das Microsoft Contoso BI-Demo-Dataset für den Einzelhandel vom offiziellen Microsoft Download Center- Download funktioniert mit einigen Microsoft-Produkten (siehe AndyGett für SharePoint und andere Unternehmenssoftware ), es werden jedoch keine einfachen SQL- oder CSV-Speicherauszüge oder Lizenzinformationen angezeigt .

— Nealmcb

1

Haben Sie sich dem Open Data Stack Exchange angeschlossen? opendata.stackexchange.com

— sss4r

88

Tatsächlich gibt es eine sehr vernünftige Liste öffentlich verfügbarer Datensätze, die von verschiedenen Unternehmen / Quellen unterstützt werden.

Einige von ihnen sind unten:

Öffentliche Datensätze auf Amazon WebServices ;
Implementierungs-Repository für häufiges Itemset-Mining ;
UCI Machine Learning Repository ;
KDnuggets - eine große Liste mit vielen öffentlichen Repositories.

Nun zwei Überlegungen zu Ihrer Frage. Erstens in Bezug auf Richtlinien zur gemeinsamen Nutzung von Datenbanken. Aus persönlicher Erfahrung gibt es einige Datenbanken, die nicht öffentlich zugänglich gemacht werden können, weder für Datenschutzbestimmungen (wie für einige Informationen in sozialen Netzwerken) noch für Regierungsinformationen (wie Datenbanken des Gesundheitssystems).

Ein weiterer Punkt betrifft die Verwendung / Anwendung des Datensatzes. Obwohl einige Basen nach Bedarf der Anwendung aufbereitet werden können, wäre eine zweckmäßige Organisation der Datensätze sehr hilfreich. Die Taxonomie sollte eine Analyse sozialer Graphen, Itemset-Mining, Klassifizierung und viele andere mögliche Forschungsbereiche umfassen.

— Rubens
quelle

64

Aktualisieren:

Kaggle.com , ein Zuhause für moderne Data-Science- und Machine-Learning- Fans :), hat ein eigenes Repository für die Datensätze eröffnet .

Neben den aufgeführten Quellen.

Einige soziale Netzwerk-Datensätze:

Bei Stats SE sind zahlreiche Quellen aufgeführt:

— IharS
quelle

37

Es gibt viele offen verfügbare Datensätze, eine, die von vielen übersehen wird, ist data.gov . Wie bereits erwähnt, ist Freebase großartig, ebenso wie alle Beispiele, die von @Rubens gepostet wurden

— MCP_infiltrator
quelle

35

Freebase ist eine kostenlose Community-gesteuerte Datenbank, die viele interessante Themen umfasst und etwa 2,5 Milliarden Fakten in maschinenlesbarem Format enthält. Es ist auch eine gute API, um Datenabfragen durchzuführen.

Hier ist eine weitere kompilierte Liste offener Datensätze: http://www.datapure.co/open-data-sets

— Konstantin V. Salikhov
quelle

Freebase wird geschlossen und seine Datenbank wird bald auf Wikidata verschoben .

— Cynddl

31

Die folgenden Links sind verfügbar

— Jakubee
quelle

25

Insbesondere für Zeitreihendaten ist Quandl eine hervorragende Ressource - ein leicht durchsuchbares Verzeichnis von (meist) sauberen Zeitreihen.

Eines ihrer coolsten Features sind Open-Data-Aktienkurse - dh Finanzdaten, die im Wiki-Stil bearbeitet werden können und nicht durch Lizenzen belastet sind.

— Azza-Bazoo
quelle

20

Enigma ist ein Repository für öffentlich verfügbare Datensätze. Der kostenlose Plan bietet eine Suche nach öffentlichen Daten mit 10.000 API-Aufrufen pro Monat. Es werden nicht alle öffentlichen Datenbanken aufgelistet, aber die Liste reicht für häufige Fälle aus.

Ich habe es für die akademische Forschung genutzt und viel Zeit gespart.

Eine weitere interessante Datenquelle ist das @ unitedstates-Projekt , das Daten und Tools zu deren Erfassung über die Vereinigten Staaten (Kongressmitglieder, geografische Formen…) enthält.

— cynddl
quelle

18

Ich möchte auf die Open Data Census verweisen . Es ist eine Initiative der Open Knowledge Foundation, die auf Beiträgen von Open-Data-Befürwortern und Experten aus der ganzen Welt basiert.

Der Wert von Open Data Census beruht auf offenen, gemeinschaftsorientierten und systematischen Bemühungen, die Datenbank offener Datensätze weltweit auf Länderebene und in einigen Fällen, wie in den USA, auf Stadtebene zu erfassen und zu aktualisieren .

Es bietet auch die Möglichkeit, verschiedene Länder und Städte in ausgewählten Interessensgebieten miteinander zu vergleichen.

— tomaskazemekas
quelle

18

Es gibt auch eine andere Ressource von The Guardian, die British Daily, auf ihrer Website. Die vom Guardian Datablog veröffentlichten Datensätze werden alle gehostet. Datensätze mit Bezug zu den Konten der Football Premier League Clubs, Angaben zur Inflation und zum BIP von Großbritannien, Grammy-Preisdaten usw. Die Datensätze sind verfügbar unter

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Noch ein paar Ressourcen. Einige der Datensätze liegen im R-Format vor, oder es gibt R-Kommandos zum direkten Importieren von Daten nach R.

http://www.inside-r.org/howto/finding-data-internet

— Binga
quelle

17

Benutzerdefinierte Google-Suche

Sie können die benutzerdefinierte Google-Suche für Datensätze verwenden:

Google Custom Search: Datensätze

Es enthält 230 Quellen und Metaquellen von Datensätzen, einschließlich aller in dieser Frage genannten. Sie können .gov und andere Websites von den Ergebnissen ausschließen, indem Sie der Suchzeile "-.gov" oder "-site.com" hinzufügen. Andere Google-Suchoperatoren funktionieren.

Zögern Sie nicht, mich zu kontaktieren, wenn Sie Ideen haben, welche Websites Sie hinzufügen möchten.

IOGDS

Der folgende Service kategorisiert mehr als 1.000.000 öffentliche Datensätze:

IOGDS: International Open Government Dataset Search

— Anton Tarasenko
quelle

Was sind die Parameter für den von Ihnen angegebenen benutzerdefinierten Suchlink? Sucht es in einer Liste von Websites, Stichwörtern usw.?

— Amir Ali Akbari

@AmirAliAkbari Durchsucht Quellen wie Data.gov, Quandl und andere wichtige Data Warehouses.

— Anton Tarasenko

16

Späte Antwort, aber hier ist eine eklektische Liste von über 100 interessanten Datensätzen

Der Blog-Beitrag macht Spaß und ist einfach zu lesen (ich bin nicht Mitglied). Es lohnt sich zu scannen und ein paar von oben abzukratzen:

Letzte Worte jedes seit 1984 hingerichteten texanischen Insassen
10.000 kommentierte Bilder von Katzen
2,2 Millionen Schachpartien

— philshem
quelle

15

Ich habe diesen Link in Data Science Central mit einer Liste kostenloser Datensätze gefunden: Große Datensätze sind kostenlos verfügbar

— lafdez
quelle

15

Wussten Sie schon über die PUMA Benchmarks und Dataset-Downloads Bescheid? https://sites.google.com/site/farazahmad/pumadatasets

Es beinhaltet Folgendes:

TeraSort
Wikipedia
Listenpunkt
Self-Join
Adjacency-Liste
Filmdatenbank
Ranglisten-Invertierter-Index

— Algarecu
quelle

15

Die britische Regierung stellt eine hervorragende Quelle für nicht personenbezogene Daten zur Verfügung, die in allen Regierungsabteilungen gesammelt werden: http://data.gov.uk

— Federer
quelle

14

Ich bin neu in diesem Forum. Später auf diese Frage eingehen. Ich habe einen Katalog öffentlich zugänglicher Datenportale geführt (ich bin Mitbegründer von). Inzwischen gibt es weltweit über 1000 gelistete und abgedeckte Portale auf internationaler, bundesstaatlicher, bundesstaatlicher, kommunaler und akademischer Ebene.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
quelle

14

Ich bin überrascht, dass man dies nicht erwähnt hat, da es ziemlich offensichtlich erscheint: http://www.kaggle.com enthält ständig neue und sehr interessante Datensätze. Informationen werden als Aktivposten angesehen, daher möchten Unternehmen diese Daten häufig nicht freigeben (plus Datenschutzbedenken). Kaggle gibt Ihnen Daten und hofft, dass Sie damit geschäftliche Probleme lösen können.

— RAM
quelle

14

Datensätze

Akademische Torrents
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Herunterladbare GeoLite Legacy-Datenbanken
Quoras große Datensätze Antwort
Öffentliche Big Data Sets
Houston Datenportal
Kaggle-Datenquellen
Ein tiefer Katalog menschlicher genetischer Variationen
Eine von der Community kuratierte Datenbank mit bekannten Personen, Orten und Dingen
Google Public Data
Weltbank-Daten
NYC Taxi Daten
Open Data Philly Menschen mit Daten für Philadelphia verbinden
Netzwerk-Repository Ein interaktives Daten-Repository mit über 600 Netzwerken in über 20 Sammlungen. von großen sozialen Netzwerken, Webgraphen, biologischen Netzwerken, Kommunikations- und technologischen Netzwerken usw.
Eine Liste nützlicher Quellen Ein Blogeintrag enthält viele Datensatzdatenbanken

Datensätze von awesome-datascience

— chenrui333
quelle

1

Können Sie uns bitte einige Informationen zu beiden Datensätzen / Links geben? Dies wird in der Tat die Belastung derjenigen erleichtern, die nach bestimmten Arten von Datensätzen suchen. Schauen Sie sich andere Beiträge an, um zu sehen, welche Informationen Ihren Referenzen fehlen.

— Rubens

11

Wie Sie bereits erwähnt haben, ist die API der schwierige Teil, nicht die Daten. Quandl scheint dieses Problem zu lösen, indem es über 10 Millionen öffentlich verfügbare Datensätze unter einer einfachen RESTful-API bereitstellt. Wenn das Programmieren nicht Ihre Stärke ist, gibt es ein kostenloses Tool, mit dem Sie Daten ganz einfach in Excel laden können. Außerdem, wenn Sie tun Programmierung genießen, gibt es mehrere nativen Bibliotheken in R, Python, Java und mehr .

— Brian Risk
quelle

11

So fügen Sie einer möglicherweise nie endenden Liste hinzu:

Wie von Cyndd erwähnt, gibt es Wikidata ,

und für kuratiertes strukturiertes Wissen Wolfram Alpha .

— image_doctor
quelle

11

Ich bin auf Github auf diese Sammlung gestoßen. Die Sammlung ist ebenfalls kategorisiert.

https://github.com/caesar0301/awesome-public-datasets

Und für den Teil betreffend

Kann nicht ein Open-Source-Modell für die gemeinsame Nutzung von Datensätzen für Data Scientists?

Sie können den Leek-Gruppenleitfaden auf den Datenaustausch verweisen

— Shagun Sodhani
quelle

10

Auf data.gov sind nicht alle Regierungsdaten aufgeführt - Sunlight Foundation hat bereits im Februar eine Reihe von Tabellen zusammengestellt, in denen die verfügbaren Daten beschrieben werden.

— Steve Kallestad
quelle

9

Eine andere Datenquelle, die ich nicht aufgelistet sehen konnte, ist das GDELT-Projekt . Von der Website:

Das GDELT-Projekt überwacht die weltweiten Rundfunk-, Print- und Webnachrichten aus nahezu jedem Winkel eines jeden Landes in über 100 Sprachen und identifiziert die Menschen, Standorte, Organisationen, Zählungen, Themen, Quellen und Ereignisse, die unsere globale Gesellschaft jeden Tag in jeder Sekunde antreiben. Schaffung einer kostenlosen offenen Plattform für das Rechnen auf der ganzen Welt.

— dvdnglnd
quelle

8

Dieser Subreddit listet viele bekannte Datensätze auf

Reddit Datasets

Zu diesem Subreddit gibt es viele Datensatzanforderungen, von denen einige beantwortet wurden.

— Irgendein Typ
quelle

6

Ich habe dafür ein Github-Repo erstellt. Die Datensätze sind nicht groß, aber es handelt sich um minimale Beispiele, die zum Üben und Erforschen von Vorhersagemodelltechniken gedacht sind, die dann auf große Datensätze erweitert werden können.

Maschinelles Lernen Problem Bibel (MLPB)

Das Coole / Einzigartige an diesem Repo ist, dass jedes Problem mit Tags wie [Multi-Class], [Unsymmetrische Daten], [Regression] usw. versehen ist, was das Auffinden bestimmter Arten von Problemen / Datensätzen erleichtert.

— Ben
quelle

6

Eurostats http://ec.europa.eu/eurostat und die Europäische Zentralbank https://www.ecb.europa.eu/stats/html/index.en.html stellen eine Vielzahl von Datensätzen zur Verfügung, die ich häufig in meinem Internet verwende Arbeitsprojekte.

— Juha
quelle

6

Neben all diesen Datensätzen, wenn Sie an Daten in Bezug auf Indien interessiert sind. Die öffentlich offizielle Seite der indischen Regierung ist

https://data.gov.in/

Es bietet Datensätze aus verschiedenen Abteilungen der indischen Regierung, die sich gut für Big Data-Analysen und maschinelles Lernen eignen.

— Gaurav
quelle

4

Yahoo hat gerade einen riesigen Datensatz für die Forschungsgemeinschaft veröffentlicht. Geniesse es!

— Kasra Manshaei
quelle

4

Wenn wir nur das MASS-Paket in R laden, greifen wir auf mehrere Datenrahmen oder Datensätze zu.

install.packages ("MASS") erfordern ("MASS")

— Dileep Balineni
quelle

3

3 Datensätze von https://www.jc-bingo.com/about

visitor-interested.csv Aggregierte Besucherinteressen, die basierend auf 1-wöchigen Webzugriffsprotokollen zusammengestellt wurden. Beinhaltet die IP-Adresse des Besuchers, die Zeichenfolge des Benutzeragenten, das Land des Besuchers, aufgerufene Seitensprachen und Themen. 19.926 Datensätze, 2.9 Mb.
user-agents.csv Benutzeragenten für echte Besucher, sortiert nach Beliebtheit. 4.826 Datensätze, 716 Kb.
bots.csv Roboter-IP-Adressen und User-Agent-Zeichenfolgen, die aus Webzugriffsprotokollen extrahiert wurden. 1.293 Datensätze, 122 Kb.

— Yuri
quelle

3

Offensichtlich gibt es eine große Anzahl öffentlicher Datenbanken.

Eine, die noch nicht erwähnt wurde, ist von der FAO (Ernährungs- und Landwirtschaftsorganisation der Vereinten Nationen) erhältlich unter:

http://www.fao.org/faostat/

Es enthält Daten zur Lebensmittelproduktion für Länder weltweit.

— Settempler
quelle