Ich werde versuchen, Ihre Fragen zu beantworten, aber bevor ich darauf hinweisen möchte, dass die Verwendung des Begriffs "großer Datensatz" irreführend ist, da "groß" ein relatives Konzept ist. Sie müssen weitere Details angeben. Wenn Sie mit Gebotsdaten arbeiten , wirkt sich diese Tatsache höchstwahrscheinlich auf die Auswahl der bevorzugten Tools , Ansätze und Algorithmen für Ihre Datenanalyse aus . Ich hoffe, dass meine folgenden Gedanken zur Datenanalyse Ihre Unterfragen ansprechen. Bitte beachten Sie, dass die Nummerierung meiner Punkte nicht mit der Nummerierung Ihrer Unterfragen übereinstimmt. Ich glaube jedoch, dass es den allgemeinen Datenanalyse-Workflow besser widerspiegelt , zumindest wie ich ihn verstehe.
1) Erstens denke ich, dass Sie zumindest eine Art konzeptionelles Modell im Auge haben müssen (oder besser auf dem Papier). Dieses Modell sollte Sie bei Ihrer explorativen Datenanalyse (EDA) unterstützen . Das Vorhandensein einer abhängigen Variablen (DV) im Modell bedeutet, dass Sie sich in Ihrer Phase des maschinellen Lernens (ML) später in der Analyse mit der sogenannten überwachten ML befassen, im Gegensatz zur unbeaufsichtigten ML, wenn keine identifizierte DV vorliegt.
2) Zweitens ist EDA ein entscheidender Teil. Meiner Meinung nach sollte EDA mehrere Iterationen zur Erstellung deskriptiver Statistiken und zur Datenvisualisierung enthalten , wenn Sie Ihr Verständnis für die Daten verfeinern. Diese Phase gibt Ihnen nicht nur wertvolle Einblicke in Ihre Datensätze, sondern auch Ihre nächste wichtige Phase - die Datenbereinigung und -transformation . Nur Ihre Rohdaten in ein statistisches Softwarepaket zu werfen, bringt nicht viel - für eine gültige statistische Analyse sollten die Daten sauber, korrekt und konsistent sein . Dies ist oft der zeit- und mühsamste, aber absolut notwendige Teil. Weitere Informationen zu diesem Thema finden Sie in den folgenden Artikeln:http://vita.had.co.nz/papers/tidy-data.pdf (von Hadley Wickham) und http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (von Edwin de Jonge und Mark van der Loo).
3) Nun, da Sie hoffentlich mit EDA sowie Datenbereinigung und -transformation fertig sind, können Sie einige weitere statistisch relevante Phasen beginnen. Eine dieser Phasen ist die explorative Faktoranalyse (EFA) , mit der Sie die zugrunde liegende Struktur Ihrer Daten extrahieren können. Bei Datensätzen mit einer großen Anzahl von Variablen ist der positive Nebeneffekt von EFA die Verringerung der Dimensionalität . In diesem Sinne ähnelt EFA der Hauptkomponentenanalyse (PCA).Bei anderen Ansätzen zur Reduzierung der Dimensionalität halte ich EFA für wichtiger, da es Ihnen ermöglicht, Ihr konzeptionelles Modell der Phänomene, die Ihre Daten "beschreiben", zu verfeinern und so Ihre Datensätze zu verstehen. Zusätzlich zu EFA können / sollten Sie natürlich eine Regressionsanalyse durchführen sowie Techniken des maschinellen Lernens anwenden , basierend auf Ihren Erkenntnissen in früheren Phasen.
Zum Schluss noch ein Hinweis zu Software-Tools . Meiner Meinung nach ist der aktuelle Stand der statistischen Softwarepakete so weit fortgeschritten, dass praktisch alle großen Softwarepakete in Bezug auf die Funktionen vergleichbare Angebote haben. Wenn Sie in einer Organisation zu studieren oder zu arbeiten , die bestimmte Richtlinien und Einstellungen in der Bezeichnung von Software - Tools haben, dann sind Sie gezwungen von ihnen. Wenn dies jedoch nicht der Fall ist, würde ich Open-Source- Statistiksoftware von Herzen empfehlen , basierend auf Ihrem Komfort mit der spezifischen Programmiersprache , der Lernkurve und Ihren Karriereperspektiven . Meine derzeitige Plattform der Wahl ist R Project, das ausgereifte, leistungsstarke, flexible, umfangreiche und offene Statistiksoftware sowie ein erstaunliches Ökosystem aus Paketen, Experten und Enthusiasten bietet. Andere gute Optionen sind Python , Julia und spezielle Open-Source-Software für die Verarbeitung von Big Data wie Hadoop , Spark , NoSQL- Datenbanken und WEKA . Weitere Beispiele für Open Source-Software für Data Mining , einschließlich allgemeiner und spezifischer Statistik- und ML-Software, finden Sie in diesem Abschnitt einer Wikipedia-Seite: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
UPDATE: Ich habe vergessen, Rattle ( http://rattle.togaware.com ) zu erwähnen , eine sehr beliebte Open-Source-R-orientierte GUI-Software für Data Mining.