Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten


2
Ausfall auf welchen LSTM-Schichten?
Ist es bei Verwendung einer Mehrschicht LSTMmit Dropout ratsam, Dropout auf alle ausgeblendeten Ebenen sowie auf die Ausgabeebenen für dichte Ebenen zu setzen? In Hintons Artikel (der Dropout vorschlug) legte er Dropout nur auf die dichten Schichten, aber das lag daran, dass die verborgenen inneren Schichten faltungsmäßig waren. Natürlich kann …

1
Wie verwende ich Scikit-Learn Label Propagation für Daten mit Diagrammstruktur?
Im Rahmen meiner Forschung bin ich daran interessiert, die Etikettenausbreitung in einem Diagramm durchzuführen. Diese beiden Methoden interessieren mich besonders: Xiaojin Zhu und Zoubin Ghahramani. Lernen aus beschrifteten und unbeschrifteten Daten mit Etikettenausbreitung. Technischer Bericht CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston …

2
Was ist der Unterschied zwischen einem Hashing-Vektorisierer und einem tfidf-Vektorisierer?
Ich konvertiere für jedes Dokument einen Korpus von Textdokumenten in Wortvektoren. Ich habe dies mit einem TfidfVectorizer und einem HashingVectorizer versucht Ich verstehe, dass a HashingVectorizerdie IDFPunktzahlen nicht wie a TfidfVectorizerberücksichtigt. Der Grund, warum ich immer noch mit a arbeite, HashingVectorizerist die Flexibilität, die es beim Umgang mit riesigen Datensätzen …

3
Neuronale Netze - Verlust- und Genauigkeitskorrelation
Ich bin etwas verwirrt über die Koexistenz von Verlust- und Genauigkeitsmetriken in neuronalen Netzen. Beide sollen die „Genauigkeit“ des Vergleichs machen yyy und y , nicht wahr? Ist die Anwendung der beiden in den Trainingsepochen nicht überflüssig? Warum korrelieren sie nicht?y^y^\hat{y}




2
So konvertieren Sie kategoriale Daten in Pyspark in numerische Daten
Ich verwende Ipython Notebook, um mit Pyspark-Anwendungen zu arbeiten. Ich habe eine CSV-Datei mit vielen kategorialen Spalten, um festzustellen, ob das Einkommen unter oder über dem Bereich von 50.000 liegt. Ich möchte einen Klassifizierungsalgorithmus durchführen, der alle Eingaben verwendet, um den Einkommensbereich zu bestimmen. Ich muss ein Wörterbuch mit Variablen …

3
Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?
Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

2
Konsequenz der Feature-Skalierung
Ich verwende derzeit SVM und skaliere meine Trainingsfunktionen auf den Bereich von [0,1]. Ich passe zuerst mein Trainingsset an / transformiere es und wende dann dieselbe Transformation auf mein Testset an. Zum Beispiel: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …

4
Verwenden von Clustering in der Textverarbeitung
Hallo, dies ist meine erste Frage im Data Science-Stack. Ich möchte einen Algorithmus für die Textklassifizierung erstellen. Angenommen, ich habe eine große Menge an Text und Artikeln. Sagen wir etwa 5000 einfache Texte. Ich benutze zuerst eine einfache Funktion, um die Häufigkeit aller vier und mehr Zeichenwörter zu bestimmen. Ich …

3
Beziehung zwischen KS, AUROC und Gini
Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

2
Buchführung von Versuchsläufen und Ergebnissen
Ich bin ein praktischer Forscher und teste gerne praktikable Lösungen, daher neige ich dazu, viele Experimente durchzuführen. Wenn ich beispielsweise eine Ähnlichkeitsbewertung zwischen Dokumenten berechne, möchte ich möglicherweise viele Maßnahmen ausprobieren. Tatsächlich muss ich für jede Maßnahme möglicherweise mehrere Läufe durchführen, um die Wirkung einiger Parameter zu testen. Bisher habe …

3
Unüberwachtes Lernen von Funktionen für NER
Ich habe das NER-System unter Verwendung des CRF-Algorithmus mit meinen handgefertigten Funktionen implementiert, die ziemlich gute Ergebnisse lieferten. Die Sache ist, dass ich viele verschiedene Funktionen verwendet habe, einschließlich POS-Tags und Lemmas. Jetzt möchte ich das gleiche NER für verschiedene Sprachen erstellen. Das Problem hier ist, dass ich keine POS-Tags …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.