Data Science

4

Müssen Ihre Daten vor dem Clustering standardisiert werden?

Müssen Ihre Daten vor dem Cluster standardisiert werden? Im Beispiel von scikit learnetwa DBSCAN, hier tun sie dies in der Zeile: X = StandardScaler().fit_transform(X) Aber ich verstehe nicht, warum es notwendig ist. Schließlich setzt Clustering keine bestimmte Verteilung von Daten voraus - es ist eine unbeaufsichtigte Lernmethode, deren Ziel es …

23 python clustering clusters anomaly-detection

3

K bedeutet inkohärentes Verhalten bei Auswahl von K mit Ellbogenmethode, BIC, Varianzerklärung und Silhouette

Ich versuche, einige Vektoren mit 90 Merkmalen mit K-Mitteln zu gruppieren. Da dieser Algorithmus mich nach der Anzahl der Cluster fragt, möchte ich meine Wahl mit einer guten Mathematik bestätigen. Ich erwarte 8 bis 10 Cluster. Die Funktionen sind Z-Score-skaliert. Ellbogenmethode und Varianz erklärt from scipy.spatial.distance import cdist, pdist from …

23 clustering k-means

7

Zweck der Visualisierung von hochdimensionalen Daten?

Es gibt viele Techniken zur Visualisierung von hochdimensionalen Datensätzen, wie z. B. T-SNE, Isomap, PCA, überwachtes PCA usw. Und wir gehen durch die Bewegungen der Projektion der Daten in einen 2D- oder 3D-Raum, so dass wir "schöne Bilder" haben ". Einige dieser Einbettungsmethoden (vielfältiges Lernen) werden hier beschrieben . Aber …

23 machine-learning dimensionality-reduction visualization

5

Wie vergleiche ich Spalten in verschiedenen Datenrahmen?

Ich möchte eine Spalte eines DF mit anderen DFs vergleichen. Die Spalten sind Namen und Nachnamen. Ich möchte überprüfen, ob sich eine Person in einem Datenrahmen in einem anderen befindet.

23 pandas dataframe

6

Codierungsmerkmale wie Monat und Stunde als kategorial oder numerisch?

Ist es besser, Features wie Monat und Stunde als Faktor oder numerisch in einem Modell für maschinelles Lernen zu codieren? Einerseits halte ich die numerische Codierung für sinnvoll, da die Zeit vorwärts geht (auf den fünften Monat folgt der sechste Monat), andererseits halte ich die kategoriale Codierung aufgrund der zyklischen …

23 machine-learning feature-extraction feature-engineering encoding numerical

4

Behandelt XGBoost Multikollinearität selbstständig?

Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …

23 feature-selection correlation xgboost gbm

2

Wie verwende ich die Ausgabe von GridSearch?

Momentan arbeite ich mit Python und Scikit, lerne für Klassifizierungszwecke und lese etwas über GridSearch. Ich dachte, dies wäre eine großartige Möglichkeit, meine Schätzparameter zu optimieren, um die besten Ergebnisse zu erzielen. Meine Methodik ist folgende: Teilen Sie meine Daten in Training / Test. Verwenden Sie GridSearch mit 5-facher Kreuzvalidierung, …

23 machine-learning cross-validation

2

Was genau ist Bootstrapping beim Reinforcement-Lernen?

Offensichtlich handelt es sich beim Verstärkungslernen bei der Zeitdifferenzmethode (TD-Methode) um eine Bootstrapping-Methode. Andererseits sind Monte-Carlo-Methoden keine Bootstrapping-Methoden. Was genau ist Bootstrapping in RL? Was ist eine Bootstrapping-Methode in RL?

23 reinforcement-learning

3

Feature-Transformation für Eingabedaten

Ich habe über die Lösung für diese OTTO Kaggle-Herausforderung gelesen und die erste Lösung scheint mehrere Transformationen für die Eingabedaten X zu verwenden, z. B. Log (X + 1), sqrt (X + 3/8) usw. Gibt es eine allgemeine Richtlinie, wann welche Art von Transformationen auf verschiedene Klassifikatoren anzuwenden ist? Ich …

22 machine-learning feature-extraction feature-scaling

3

Codierung kategorialer Variablen unter Verwendung der Wahrscheinlichkeitsschätzung

Ich versuche zu verstehen, wie ich mithilfe der Wahrscheinlichkeitsschätzung kategoriale Variablen codieren kann, habe aber bisher nur wenig Erfolg gehabt. Anregungen wäre sehr dankbar.

22 feature-engineering

6

Jupyter-Notizbücher in einem Team teilen

Ich möchte einen Server einrichten, der ein Data-Science-Team auf folgende Weise unterstützen kann: ein zentraler Punkt für das Speichern, Versionsmanagement, das Teilen und möglicherweise auch das Ausführen von Jupyter-Notebooks. Einige gewünschte Eigenschaften: Verschiedene Benutzer können auf den Server zugreifen und Notizbücher öffnen und ausführen, die von ihnen oder anderen Teammitgliedern …

22 software-recommendation

6

Warum funktionieren neuronale Faltungsnetze?

Ich habe oft Leute sagen hören, warum faltungsbedingte neuronale Netze immer noch schlecht verstanden werden. Ist bekannt, warum faltungsbedingte neuronale Netze immer komplexer werdende Funktionen erlernen, wenn wir die Schichten hinaufsteigen? Was hat sie dazu veranlasst, einen solchen Stapel von Features zu erstellen, und würde dies auch für andere Arten …

22 machine-learning neural-network deep-learning convnet cnn

3

Was ist eine bessere Eingabe für Word2Vec?

Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit Python und …

22 nlp word-embeddings

4

Ist Data Science dasselbe wie Data Mining?

Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede …

22 data-mining definitions

5

Berechnung der KL-Divergenz in Python

Ich bin ziemlich neu in diesem Bereich und kann nicht sagen, dass ich die theoretischen Konzepte dahinter vollständig verstanden habe. Ich versuche, die KL-Divergenz zwischen mehreren Punktelisten in Python zu berechnen. Ich benutze http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html , um dies zu versuchen. Das Problem, auf das ich stoße, ist, dass der zurückgegebene Wert …

22 python clustering scikit-learn