Natürlich ja.
Die Datenanalyse könnte Sie zu vielen Punkten führen, die Ihrem Vorhersagemodell schaden würden:
Unvollständige Daten
Angenommen, es handelt sich um quantitative Daten, müssen Sie entscheiden, ob Sie die Spalte ignorieren möchten (wenn zu viele Daten fehlen) oder herausfinden, was Ihr "Standard" -Wert ist (Mittelwert, Modus, usw.). Sie können dies nicht tun, ohne zuerst Ihre Daten zu untersuchen.
Ungewöhnliche Daten
Sagen Sie Daten haben , die ziemlich stark korreliert ist , aber es gibt ein 2% Ihrer Daten, die ist Weg aus dieser Korrelation. Möglicherweise möchten Sie diese Daten vollständig entfernen, um Ihrem Vorhersagemodell zu helfen
Entfernen Sie zu stark korrelierte Spalten
Ok, das widerspricht ein bisschen meinem vorherigen Punkt, aber Englisch ist nicht meine Hauptsprache, also hoffe ich, dass du es verstehst.
Ich nehme ein dummes Beispiel: Sie analysieren den Datensatz eines Fußballstadions und haben ihn Width, Length, Area
als Parameter. Nun, wir können uns leicht vorstellen, dass diese drei Parameter stark korrelieren werden. Wenn Ihre Spalte zu stark korreliert, führt dies das Vorhersagemodell in eine falsche Richtung. Möglicherweise möchten Sie einen oder mehrere Parameter löschen.
Finden Sie neue Funktionen
Ich nehme das Beispiel der kleinen Titanic Kaggle "Competition" . Wenn Sie sich die Namen der Leute ansehen, können Sie herausfinden, dass Sie eine Funktion extrahieren können, die Title
der Person entspricht. Diese Funktion erweist sich für die Modellierung als ziemlich wichtig, aber Sie hätten sie verpasst, wenn Sie Ihre Daten nicht zuerst analysiert hätten.
Sie können sich dafür entscheiden, Ihre fortlaufenden Daten zu bündeln, weil dies angemessener erscheint, oder eine fortlaufende Funktion in eine kategoriale zu verwandeln.
Finden Sie den zu verwendenden Algorithmus
Ich kann im Moment keine Pläne zeichnen, aber lassen Sie uns dies ein einfaches Beispiel machen.
Stellen Sie sich vor, Sie haben ein kleines Modell mit einer Feature-Spalte und einer binären Ergebnisspalte (nur 0 oder 1). Sie möchten ein prädiktives Klassifizierungsmodell für diesen Datensatz erstellen.
Wenn Sie es erneut als Beispiel plotten (also analysieren Sie Ihre Daten), stellen Sie möglicherweise fest, dass das Plot einen perfekten Kreis um Ihren Wert 1 bildet. In einem solchen Szenario wäre es ziemlich offensichtlich, dass Sie einen Polynomklassifikator verwenden könnten, um ein großartiges Modell zu erhalten, anstatt direkt zum DNN zu springen. (Angesichts der Tatsache, dass mein Beispiel nur zwei Spalten enthält, ist es natürlich kein hervorragendes Beispiel, aber Sie verstehen, worum es geht.)
Insgesamt können Sie nicht erwarten, dass ein Vorhersagemodell eine gute Leistung erbringt, wenn Sie sich die Daten nicht zuerst ansehen.
[descriptive-statistics]
Tag hinzu und Ihre letzte Frage ist, ob deskriptive Statistiken wichtig sind. Meinen Sie in diesem Zusammenhang nur die Berechnung verschiedener deskriptiver Statistiken, wenn Sie EDA erwähnen, oder fragen Sie nach sowohl deskriptiver Statistik als auch EDA? Ich frage, weil viele Menschen (einschließlich mir) EDA als mehr als nur beschreibende Statistik ansehen.