Welche ersten Schritte sollte ich ausführen, um große Datenmengen zu verstehen, und welche Tools sollte ich verwenden?


10

Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig.

Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die ich noch nicht erkannt habe, sind tatsächlich Variablen / relevant.

Ich vermute, dass dies ein bekanntes Problem in der Welt der Datenanalyse ist, daher habe ich einige Fragen:

  1. Die 'Silberkugel' wäre, all diese Daten in ein Statistik- / Datenanalyseprogramm zu werfen und die Daten zu knacken, um nach bekannten / unbekannten Mustern zu suchen, die versuchen, Beziehungen zu finden. Ist SPSS geeignet oder gibt es andere Anwendungen, die möglicherweise besser geeignet sind?

  2. Sollte ich eine Sprache wie R lernen und herausfinden, wie die Daten manuell verarbeitet werden? Würde dies nicht das Finden von Beziehungen umfassen, da ich manuell angeben müsste, was und wie die Daten analysiert werden sollen?

  3. Wie würde ein professioneller Data Miner dieses Problem angehen und welche Schritte würde er unternehmen?

Antworten:


11

Ich werde versuchen, Ihre Fragen zu beantworten, aber bevor ich darauf hinweisen möchte, dass die Verwendung des Begriffs "großer Datensatz" irreführend ist, da "groß" ein relatives Konzept ist. Sie müssen weitere Details angeben. Wenn Sie mit Gebotsdaten arbeiten , wirkt sich diese Tatsache höchstwahrscheinlich auf die Auswahl der bevorzugten Tools , Ansätze und Algorithmen für Ihre Datenanalyse aus . Ich hoffe, dass meine folgenden Gedanken zur Datenanalyse Ihre Unterfragen ansprechen. Bitte beachten Sie, dass die Nummerierung meiner Punkte nicht mit der Nummerierung Ihrer Unterfragen übereinstimmt. Ich glaube jedoch, dass es den allgemeinen Datenanalyse-Workflow besser widerspiegelt , zumindest wie ich ihn verstehe.

1) Erstens denke ich, dass Sie zumindest eine Art konzeptionelles Modell im Auge haben müssen (oder besser auf dem Papier). Dieses Modell sollte Sie bei Ihrer explorativen Datenanalyse (EDA) unterstützen . Das Vorhandensein einer abhängigen Variablen (DV) im Modell bedeutet, dass Sie sich in Ihrer Phase des maschinellen Lernens (ML) später in der Analyse mit der sogenannten überwachten ML befassen, im Gegensatz zur unbeaufsichtigten ML, wenn keine identifizierte DV vorliegt.

2) Zweitens ist EDA ein entscheidender Teil. Meiner Meinung nach sollte EDA mehrere Iterationen zur Erstellung deskriptiver Statistiken und zur Datenvisualisierung enthalten , wenn Sie Ihr Verständnis für die Daten verfeinern. Diese Phase gibt Ihnen nicht nur wertvolle Einblicke in Ihre Datensätze, sondern auch Ihre nächste wichtige Phase - die Datenbereinigung und -transformation . Nur Ihre Rohdaten in ein statistisches Softwarepaket zu werfen, bringt nicht viel - für eine gültige statistische Analyse sollten die Daten sauber, korrekt und konsistent sein . Dies ist oft der zeit- und mühsamste, aber absolut notwendige Teil. Weitere Informationen zu diesem Thema finden Sie in den folgenden Artikeln:http://vita.had.co.nz/papers/tidy-data.pdf (von Hadley Wickham) und http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (von Edwin de Jonge und Mark van der Loo).

3) Nun, da Sie hoffentlich mit EDA sowie Datenbereinigung und -transformation fertig sind, können Sie einige weitere statistisch relevante Phasen beginnen. Eine dieser Phasen ist die explorative Faktoranalyse (EFA) , mit der Sie die zugrunde liegende Struktur Ihrer Daten extrahieren können. Bei Datensätzen mit einer großen Anzahl von Variablen ist der positive Nebeneffekt von EFA die Verringerung der Dimensionalität . In diesem Sinne ähnelt EFA der Hauptkomponentenanalyse (PCA).Bei anderen Ansätzen zur Reduzierung der Dimensionalität halte ich EFA für wichtiger, da es Ihnen ermöglicht, Ihr konzeptionelles Modell der Phänomene, die Ihre Daten "beschreiben", zu verfeinern und so Ihre Datensätze zu verstehen. Zusätzlich zu EFA können / sollten Sie natürlich eine Regressionsanalyse durchführen sowie Techniken des maschinellen Lernens anwenden , basierend auf Ihren Erkenntnissen in früheren Phasen.

Zum Schluss noch ein Hinweis zu Software-Tools . Meiner Meinung nach ist der aktuelle Stand der statistischen Softwarepakete so weit fortgeschritten, dass praktisch alle großen Softwarepakete in Bezug auf die Funktionen vergleichbare Angebote haben. Wenn Sie in einer Organisation zu studieren oder zu arbeiten , die bestimmte Richtlinien und Einstellungen in der Bezeichnung von Software - Tools haben, dann sind Sie gezwungen von ihnen. Wenn dies jedoch nicht der Fall ist, würde ich Open-Source- Statistiksoftware von Herzen empfehlen , basierend auf Ihrem Komfort mit der spezifischen Programmiersprache , der Lernkurve und Ihren Karriereperspektiven . Meine derzeitige Plattform der Wahl ist R Project, das ausgereifte, leistungsstarke, flexible, umfangreiche und offene Statistiksoftware sowie ein erstaunliches Ökosystem aus Paketen, Experten und Enthusiasten bietet. Andere gute Optionen sind Python , Julia und spezielle Open-Source-Software für die Verarbeitung von Big Data wie Hadoop , Spark , NoSQL- Datenbanken und WEKA . Weitere Beispiele für Open Source-Software für Data Mining , einschließlich allgemeiner und spezifischer Statistik- und ML-Software, finden Sie in diesem Abschnitt einer Wikipedia-Seite: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

UPDATE: Ich habe vergessen, Rattle ( http://rattle.togaware.com ) zu erwähnen , eine sehr beliebte Open-Source-R-orientierte GUI-Software für Data Mining.


1
Nachdem ich über ein Jahr später auf diese Frage zurückgekommen bin, kann ich mit Sicherheit wiederholen, dass das Wissen um Ihre Daten der Schlüssel ist und Sie berücksichtigen müssen, was die "guten" Daten gegenüber den "schlechten" Daten sind. Ich habe versucht, magische Lösungen wie neuronale Netze usw. zu verwenden, aber der Datenbereinigungsprozess war nicht einfach. (Versteckte Markov-Modelle schienen am besten auf schmutzige Eingaben zu reagieren und konnten die Ausgaben am besten vorhersagen.) Es wurde tatsächlich viele Wochen lang über die Daten gegossen, nachdem die ML versagt hatte und nachdem viele Diagramme erstellt worden waren (visuelle Darstellungen der Daten sind sehr wichtig), dass ich die Lösungen für meine Probleme finden konnte!
user3791372

@ user3791372 Freut mich von Ihnen zu hören! Es scheint klar, dass dieses Jahr für Sie produktiv war, um verschiedene Aspekte der Datenwissenschaft besser zu verstehen. Ich wünschte, ich hätte mehr Möglichkeiten, mehr zu lernen, aber andererseits kann ich mich nicht beschweren, da ich auch ziemlich viel gelernt habe (nicht immer im Zusammenhang mit der Datenwissenschaft, aber vielleicht ist es sogar noch besser). Mach weiter!
Aleksandr Blekh

3
  1. SPSS ist ein großartiges Tool, aber Sie können viel mit Ressourcen erreichen, die Sie bereits auf Ihrem Computer haben, wie Excel, oder die kostenlos sind, wie das R-Projekt. Obwohl diese Tools leistungsstark sind und Ihnen beim Erkennen von Mustern helfen können, müssen Sie Ihre Daten genau kennen, bevor Sie Analysen ausführen (ich würde empfehlen, beschreibende Statistiken zu Ihren Daten auszuführen und die Daten mit Diagrammen zu untersuchen, um sicherzustellen, dass alles vorhanden ist sieht normal aus). Mit anderen Worten, das von Ihnen verwendete Tool bietet keine "Silberkugel", da die Ausgabe nur so wertvoll ist wie die Eingabe (Sie kennen das Sprichwort ... "Müll rein, Müll raus"). Vieles von dem, was ich sage, wurde bereits in der Antwort von Aleksandr erwähnt - genau richtig.

  2. R kann für diejenigen von uns eine Herausforderung sein, die sich mit Codierung nicht auskennen, aber die mit R und seinen Paketen verbundenen freien Ressourcen sind reichlich vorhanden. Wenn Sie das Erlernen des Programms üben, werden Sie schnell an Bodenhaftung gewinnen. Auch hier müssen Sie mit Ihren Daten und den Analysen vertraut sein, die Sie ohnehin ausführen möchten, und diese Tatsache bleibt unabhängig von den von Ihnen verwendeten statistischen Tools bestehen.

  3. Ich würde mich zunächst sehr gut mit meinen Daten vertraut machen (befolgen Sie zunächst die Schritte in der Antwort von Aleksandr). Sie könnten John Foremans Buch Data Smart in die Hand nehmen. Es ist ein praktisches Buch, da John Datensätze bereitstellt und Sie seinen Beispielen (mithilfe von Excel) folgen, um verschiedene Methoden zum Navigieren und Erkunden von Daten zu erlernen. Für Anfänger ist es eine großartige Ressource.


2

Aleksandr hat eine sehr gründliche Erklärung gegeben, aber kurz sind dies die folgenden Schritte:

Daten extrahieren

Daten reinigen

Merkmalsextraktion

Gebäudemodelle

Ergebnisse ableiten

Ergebnisse veröffentlichen

Wiederholen Sie die Schritte 3,4,5 in einer Schleife, bis Sie die richtige Genauigkeit erhalten.


0

R hat PNC-Dialog-GUIs wie SPSS. Sie drucken R-Code, damit Sie lernen und ihre Bemühungen kombinieren können. Ich würde BlueSky für seine Dialoge für alles und Rasseln empfehlen. Diese Software eignet sich zwar hervorragend für EDA, Statistik und Visualisierung, maschinelles Lernen ist jedoch nicht gut.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.