Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten


3
K bedeutet inkohärentes Verhalten bei Auswahl von K mit Ellbogenmethode, BIC, Varianzerklärung und Silhouette
Ich versuche, einige Vektoren mit 90 Merkmalen mit K-Mitteln zu gruppieren. Da dieser Algorithmus mich nach der Anzahl der Cluster fragt, möchte ich meine Wahl mit einer guten Mathematik bestätigen. Ich erwarte 8 bis 10 Cluster. Die Funktionen sind Z-Score-skaliert. Ellbogenmethode und Varianz erklärt from scipy.spatial.distance import cdist, pdist from …



6
Codierungsmerkmale wie Monat und Stunde als kategorial oder numerisch?
Ist es besser, Features wie Monat und Stunde als Faktor oder numerisch in einem Modell für maschinelles Lernen zu codieren? Einerseits halte ich die numerische Codierung für sinnvoll, da die Zeit vorwärts geht (auf den fünften Monat folgt der sechste Monat), andererseits halte ich die kategoriale Codierung aufgrund der zyklischen …

4
Behandelt XGBoost Multikollinearität selbstständig?
Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …

2
Wie verwende ich die Ausgabe von GridSearch?
Momentan arbeite ich mit Python und Scikit, lerne für Klassifizierungszwecke und lese etwas über GridSearch. Ich dachte, dies wäre eine großartige Möglichkeit, meine Schätzparameter zu optimieren, um die besten Ergebnisse zu erzielen. Meine Methodik ist folgende: Teilen Sie meine Daten in Training / Test. Verwenden Sie GridSearch mit 5-facher Kreuzvalidierung, …




6
Jupyter-Notizbücher in einem Team teilen
Ich möchte einen Server einrichten, der ein Data-Science-Team auf folgende Weise unterstützen kann: ein zentraler Punkt für das Speichern, Versionsmanagement, das Teilen und möglicherweise auch das Ausführen von Jupyter-Notebooks. Einige gewünschte Eigenschaften: Verschiedene Benutzer können auf den Server zugreifen und Notizbücher öffnen und ausführen, die von ihnen oder anderen Teammitgliedern …

6
Warum funktionieren neuronale Faltungsnetze?
Ich habe oft Leute sagen hören, warum faltungsbedingte neuronale Netze immer noch schlecht verstanden werden. Ist bekannt, warum faltungsbedingte neuronale Netze immer komplexer werdende Funktionen erlernen, wenn wir die Schichten hinaufsteigen? Was hat sie dazu veranlasst, einen solchen Stapel von Features zu erstellen, und würde dies auch für andere Arten …

3
Was ist eine bessere Eingabe für Word2Vec?
Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit Python und …

4
Ist Data Science dasselbe wie Data Mining?
Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede …

5
Berechnung der KL-Divergenz in Python
Ich bin ziemlich neu in diesem Bereich und kann nicht sagen, dass ich die theoretischen Konzepte dahinter vollständig verstanden habe. Ich versuche, die KL-Divergenz zwischen mehreren Punktelisten in Python zu berechnen. Ich benutze http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html , um dies zu versuchen. Das Problem, auf das ich stoße, ist, dass der zurückgegebene Wert …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.