Müssen Ihre Daten vor dem Cluster standardisiert werden? Im Beispiel von scikit learnetwa DBSCAN, hier tun sie dies in der Zeile: X = StandardScaler().fit_transform(X) Aber ich verstehe nicht, warum es notwendig ist. Schließlich setzt Clustering keine bestimmte Verteilung von Daten voraus - es ist eine unbeaufsichtigte Lernmethode, deren Ziel es …
Ich versuche, einige Vektoren mit 90 Merkmalen mit K-Mitteln zu gruppieren. Da dieser Algorithmus mich nach der Anzahl der Cluster fragt, möchte ich meine Wahl mit einer guten Mathematik bestätigen. Ich erwarte 8 bis 10 Cluster. Die Funktionen sind Z-Score-skaliert. Ellbogenmethode und Varianz erklärt from scipy.spatial.distance import cdist, pdist from …
Es gibt viele Techniken zur Visualisierung von hochdimensionalen Datensätzen, wie z. B. T-SNE, Isomap, PCA, überwachtes PCA usw. Und wir gehen durch die Bewegungen der Projektion der Daten in einen 2D- oder 3D-Raum, so dass wir "schöne Bilder" haben ". Einige dieser Einbettungsmethoden (vielfältiges Lernen) werden hier beschrieben . Aber …
Ich möchte eine Spalte eines DF mit anderen DFs vergleichen. Die Spalten sind Namen und Nachnamen. Ich möchte überprüfen, ob sich eine Person in einem Datenrahmen in einem anderen befindet.
Ist es besser, Features wie Monat und Stunde als Faktor oder numerisch in einem Modell für maschinelles Lernen zu codieren? Einerseits halte ich die numerische Codierung für sinnvoll, da die Zeit vorwärts geht (auf den fünften Monat folgt der sechste Monat), andererseits halte ich die kategoriale Codierung aufgrund der zyklischen …
Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …
Momentan arbeite ich mit Python und Scikit, lerne für Klassifizierungszwecke und lese etwas über GridSearch. Ich dachte, dies wäre eine großartige Möglichkeit, meine Schätzparameter zu optimieren, um die besten Ergebnisse zu erzielen. Meine Methodik ist folgende: Teilen Sie meine Daten in Training / Test. Verwenden Sie GridSearch mit 5-facher Kreuzvalidierung, …
Offensichtlich handelt es sich beim Verstärkungslernen bei der Zeitdifferenzmethode (TD-Methode) um eine Bootstrapping-Methode. Andererseits sind Monte-Carlo-Methoden keine Bootstrapping-Methoden. Was genau ist Bootstrapping in RL? Was ist eine Bootstrapping-Methode in RL?
Ich habe über die Lösung für diese OTTO Kaggle-Herausforderung gelesen und die erste Lösung scheint mehrere Transformationen für die Eingabedaten X zu verwenden, z. B. Log (X + 1), sqrt (X + 3/8) usw. Gibt es eine allgemeine Richtlinie, wann welche Art von Transformationen auf verschiedene Klassifikatoren anzuwenden ist? Ich …
Ich versuche zu verstehen, wie ich mithilfe der Wahrscheinlichkeitsschätzung kategoriale Variablen codieren kann, habe aber bisher nur wenig Erfolg gehabt. Anregungen wäre sehr dankbar.
Ich möchte einen Server einrichten, der ein Data-Science-Team auf folgende Weise unterstützen kann: ein zentraler Punkt für das Speichern, Versionsmanagement, das Teilen und möglicherweise auch das Ausführen von Jupyter-Notebooks. Einige gewünschte Eigenschaften: Verschiedene Benutzer können auf den Server zugreifen und Notizbücher öffnen und ausführen, die von ihnen oder anderen Teammitgliedern …
Ich habe oft Leute sagen hören, warum faltungsbedingte neuronale Netze immer noch schlecht verstanden werden. Ist bekannt, warum faltungsbedingte neuronale Netze immer komplexer werdende Funktionen erlernen, wenn wir die Schichten hinaufsteigen? Was hat sie dazu veranlasst, einen solchen Stapel von Features zu erstellen, und würde dies auch für andere Arten …
Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit Python und …
Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede …
Ich bin ziemlich neu in diesem Bereich und kann nicht sagen, dass ich die theoretischen Konzepte dahinter vollständig verstanden habe. Ich versuche, die KL-Divergenz zwischen mehreren Punktelisten in Python zu berechnen. Ich benutze http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html , um dies zu versuchen. Das Problem, auf das ich stoße, ist, dass der zurückgegebene Wert …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.