Data Science-orientierter Datensatz / Forschungsfrage für die Statistik-MSc-Arbeit


11

Ich möchte 'Data Science' erforschen. Der Begriff scheint mir ein wenig vage zu sein, aber ich erwarte, dass er Folgendes erfordert:

  1. maschinelles Lernen (anstelle traditioneller Statistiken);
  2. Ein Datensatz, der groß genug ist, um Analysen für Cluster auszuführen.

Was sind einige gute Datensätze und Probleme, auf die ein Statistiker mit Programmierhintergrund zugreifen kann, um das Gebiet der Datenwissenschaft zu erkunden?

Um dies so eng wie möglich zu halten, möchte ich im Idealfall Links zu offenen, gut verwendeten Datensätzen und Beispielproblemen.

Antworten:



5

Die Sunlight Foundation ist eine Organisation, die sich darauf konzentriert, überparteiliche Analysen von Regierungsdaten zu öffnen und zu fördern.

Es gibt eine Menge Analysen in freier Wildbahn, die zum Vergleich herangezogen werden können, und eine Vielzahl von Themen.

Sie bieten Tools und APIs für den Zugriff auf Daten und haben dazu beigetragen, Daten an Orten wie data.gov verfügbar zu machen .

Ein interessantes Projekt ist Influence Explorer . Hier erhalten Sie Quelldaten sowie Zugriff auf Echtzeitdaten.

Vielleicht möchten Sie auch einen Blick auf eine unserer beliebtesten Fragen werfen:

Öffentlich verfügbare Datensätze .


5

Ist Ihr Master in Informatik? Statistiken?

Wird 'Data Science' im Mittelpunkt Ihrer Arbeit stehen? Oder ein Nebenthema?

Ich gehe davon aus, dass Sie in Statistik sind und dass Sie Ihre Abschlussarbeit auf ein 'Data Science'-Problem konzentrieren möchten. Wenn ja, dann werde ich gegen den Strich gehen und vorschlagen, dass Sie nicht mit einem Datensatz oder einer ML-Methode beginnen sollten. Stattdessen sollten Sie nach einem interessanten Forschungsproblem suchen, das nur unzureichend verstanden wird oder bei dem sich ML-Methoden noch nicht als erfolgreich erwiesen haben oder bei dem es viele konkurrierende ML-Methoden gibt, von denen jedoch keine besser zu sein scheint als andere.

Betrachten Sie diese Datenquelle: Stanford Large Network Dataset Collection . Sie könnten zwar einen dieser Datensätze auswählen, eine Problemstellung erstellen und dann eine Liste von ML-Methoden ausführen, aber dieser Ansatz sagt Ihnen wirklich nicht viel darüber aus, worum es in der Datenwissenschaft geht, und meiner Meinung nach auch nicht führen zu einer sehr guten Masterarbeit.

Stattdessen können Sie Folgendes tun: Suchen Sie nach allen Forschungsarbeiten, die ML für eine bestimmte Kategorie verwenden - z. B. Collaboration-Netzwerke (auch als Co-Autorenschaft bezeichnet). Wie Sie jedes Papier zu lesen, versuchen, herauszufinden , was sie waren die Lage , mit jedem ML Verfahren zu erreichen und was sie zu Adresse nicht in der Lage waren. Achten Sie besonders auf ihre Vorschläge für "zukünftige Forschung".

Vielleicht verwenden sie alle dieselbe Methode, haben aber nie konkurrierende ML-Methoden ausprobiert. Oder vielleicht validieren sie ihre Ergebnisse nicht angemessen, oder vielleicht sind die Datensätze klein, oder vielleicht waren ihre Forschungsfragen und Hypothesen einfach oder begrenzt.

Am wichtigsten: Versuchen Sie herauszufinden, wohin diese Forschungsrichtung führt. Warum machen sie sich überhaupt die Mühe, das zu tun? Was ist daran wichtig? Wo und warum stoßen sie auf Schwierigkeiten?


Das ist eine ziemlich gute Idee. Der Master ist in Statistik.
user3279453
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.