Ich erstelle seit einiger Zeit Modelle mit kategorialen Daten. In dieser Situation verwende ich standardmäßig die LabelEncoder-Funktion von scikit-learn, um diese Daten vor dem Erstellen eines Modells zu transformieren. Ich verstehe den Unterschied zwischen OHE, LabelEncoderund DictVectorizorin Hinblick darauf, was sie auf die Daten zu tun, aber was mir nicht …
Ist es besser, Features wie Monat und Stunde als Faktor oder numerisch in einem Modell für maschinelles Lernen zu codieren? Einerseits halte ich die numerische Codierung für sinnvoll, da die Zeit vorwärts geht (auf den fünften Monat folgt der sechste Monat), andererseits halte ich die kategoriale Codierung aufgrund der zyklischen …
Ich versuche zu verstehen, wie ich mithilfe der Wahrscheinlichkeitsschätzung kategoriale Variablen codieren kann, habe aber bisher nur wenig Erfolg gehabt. Anregungen wäre sehr dankbar.
Im Falle einer Kombination von kategorialen und numerischen Attributen konvertiere ich die kategorialen Attribute normalerweise in einen heißen Vektor. Meine Frage ist, lasse ich diese Vektoren unverändert und skaliere die numerischen Attribute durch Standardisierung / Normalisierung, oder sollte ich die einen heißen Vektoren zusammen mit den numerischen Attributen skalieren?
Ich nehme an einem Kaggle-Wettbewerb teil. Der Datensatz hat ungefähr 100 Funktionen und alle sind unbekannt (in Bezug darauf, was sie tatsächlich darstellen). Im Grunde sind es nur Zahlen. Die Leute führen eine Menge Feature-Engineering für diese Features durch. Ich frage mich, wie genau man Feature-Engineering für unbekannte Features durchführen …
Geschlossen . Diese Frage erfordert Details oder Klarheit . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Fügen Sie Details hinzu und klären Sie das Problem, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 3 Jahren . Ich arbeite an einem fiktiven Datensatz mit 25 Funktionen. Zwei der …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich habe eine Lösung des Wohnungspreiswettbewerbs auf Kaggle ( Human Analogs Kernel on House Prices: Advance Regression Techniques ) durchlaufen und bin auf diesen Teil gestoßen : # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew …
Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?
Ich habe eine praktische Frage zum Feature Engineering ... Ich möchte die Immobilienpreise mithilfe der logistischen Regression vorhersagen und habe eine Reihe von Funktionen einschließlich der Postleitzahl verwendet. Wenn ich dann die Wichtigkeit der Funktionen überprüfe, stelle ich fest, dass Zip eine ziemlich gute Funktion ist. Deshalb habe ich beschlossen, …
Ich habe das Material zu XGBoost gelesen. Es scheint, dass diese Methode keine variable Skalierung erfordert, da sie auf Bäumen basiert und diese komplexe Nichtlinearitätsmuster-Interaktionen erfassen kann. Und es kann sowohl numerische als auch kategoriale Variablen verarbeiten, und es scheint auch, dass redundante Variablen diese Methode nicht zu sehr beeinflussen. …
Gibt es eine Ressource mit einer Liste von Feature-Engineering-Techniken? Eine Kartierung der Art der Daten, des Modells und der Feature-Engineering-Technik wäre eine Goldmine
Ich habe die folgenden Daten für ein kleines Nebenprojekt. Es ist von einem Beschleunigungsmesser, der auf einer Waschmaschine / einem Trockner sitzt, und ich möchte, dass er mir sagt, wann die Maschine fertig ist. x sind die Eingabedaten (x / y / z-Bewegung als ein Wert), y ist die Beschriftung …
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.