Data Science

3

Wie kann man das Wachstum eines sozialen Netzwerks animieren?

Ich suche nach einer Bibliothek / einem Tool, um zu visualisieren, wie sich das soziale Netzwerk ändert, wenn neue Knoten / Kanten hinzugefügt werden. Eine der vorhandenen Lösungen ist SoNIA: Social Network Image Animator . Damit können Sie Filme wie diesen machen . Die Dokumentation von SoNIA besagt, dass es …

11 social-network-analysis time-series javascript visualization

2

Ausfall auf welchen LSTM-Schichten?

Ist es bei Verwendung einer Mehrschicht LSTMmit Dropout ratsam, Dropout auf alle ausgeblendeten Ebenen sowie auf die Ausgabeebenen für dichte Ebenen zu setzen? In Hintons Artikel (der Dropout vorschlug) legte er Dropout nur auf die dichten Schichten, aber das lag daran, dass die verborgenen inneren Schichten faltungsmäßig waren. Natürlich kann …

11 neural-network lstm rnn dropout stacked-lstm

1

Wie verwende ich Scikit-Learn Label Propagation für Daten mit Diagrammstruktur?

Im Rahmen meiner Forschung bin ich daran interessiert, die Etikettenausbreitung in einem Diagramm durchzuführen. Diese beiden Methoden interessieren mich besonders: Xiaojin Zhu und Zoubin Ghahramani. Lernen aus beschrifteten und unbeschrifteten Daten mit Etikettenausbreitung. Technischer Bericht CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston …

11 scikit-learn graphs

2

Was ist der Unterschied zwischen einem Hashing-Vektorisierer und einem tfidf-Vektorisierer?

Ich konvertiere für jedes Dokument einen Korpus von Textdokumenten in Wortvektoren. Ich habe dies mit einem TfidfVectorizer und einem HashingVectorizer versucht Ich verstehe, dass a HashingVectorizerdie IDFPunktzahlen nicht wie a TfidfVectorizerberücksichtigt. Der Grund, warum ich immer noch mit a arbeite, HashingVectorizerist die Flexibilität, die es beim Umgang mit riesigen Datensätzen …

11 nlp scikit-learn text-mining tfidf

3

Neuronale Netze - Verlust- und Genauigkeitskorrelation

Ich bin etwas verwirrt über die Koexistenz von Verlust- und Genauigkeitsmetriken in neuronalen Netzen. Beide sollen die „Genauigkeit“ des Vergleichs machen yyy und y , nicht wahr? Ist die Anwendung der beiden in den Trainingsepochen nicht überflüssig? Warum korrelieren sie nicht?y^y^\hat{y}

11 neural-network evaluation

2

Frage zur Voreingenommenheit in Faltungsnetzwerken

Ich versuche herauszufinden, wie viele Gewichte und Vorurteile für CNN benötigt werden. Angenommen, ich habe ein (3, 32, 32) -Bild und möchte einen (32, 5, 5) -Filter anwenden. Für jede Feature-Map habe ich 5x5 Gewichte, daher sollte ich 3 x (5x5) x 32 Parameter haben. Jetzt muss ich die Voreingenommenheit …

11 deep-learning convnet backpropagation

4

Welches zuerst: Algorithmus-Benchmarking, Funktionsauswahl, Parameteroptimierung?

Wenn ich versuche, zB eine Klassifizierung vorzunehmen, gehe ich derzeit zu Probieren Sie zuerst verschiedene Algorithmen aus und vergleichen Sie sie Führen Sie die Merkmalsauswahl für den besten Algorithmus aus 1 oben durch Passen Sie die Parameter mithilfe der ausgewählten Funktionen und Algorithmen an Ich kann mich jedoch oft nicht …

11 feature-selection parameter-estimation

3

Können Regressionsbäume kontinuierlich vorhersagen?

Angenommen, ich habe eine glatte Funktion wie . Ich habe einen Trainingssatz D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} und, natürlich, ich weiß nicht , f obwohl ich beurteilen kann f wohin ich will.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D …

11 predictive-modeling regression decision-trees

2

So konvertieren Sie kategoriale Daten in Pyspark in numerische Daten

Ich verwende Ipython Notebook, um mit Pyspark-Anwendungen zu arbeiten. Ich habe eine CSV-Datei mit vielen kategorialen Spalten, um festzustellen, ob das Einkommen unter oder über dem Bereich von 50.000 liegt. Ich möchte einen Klassifizierungsalgorithmus durchführen, der alle Eingaben verwendet, um den Einkommensbereich zu bestimmen. Ich muss ein Wörterbuch mit Variablen …

11 python apache-spark categorical-data pyspark

3

Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?

Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

11 classification r python regression predictive-modeling

2

Konsequenz der Feature-Skalierung

Ich verwende derzeit SVM und skaliere meine Trainingsfunktionen auf den Bereich von [0,1]. Ich passe zuerst mein Trainingsset an / transformiere es und wende dann dieselbe Transformation auf mein Testset an. Zum Beispiel: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …

11 machine-learning svm feature-scaling

4

Verwenden von Clustering in der Textverarbeitung

Hallo, dies ist meine erste Frage im Data Science-Stack. Ich möchte einen Algorithmus für die Textklassifizierung erstellen. Angenommen, ich habe eine große Menge an Text und Artikeln. Sagen wir etwa 5000 einfache Texte. Ich benutze zuerst eine einfache Funktion, um die Häufigkeit aller vier und mehr Zeichenwörter zu bestimmen. Ich …

11 text-mining clustering

3

Beziehung zwischen KS, AUROC und Gini

Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

11 data-mining statistics predictive-modeling accuracy

2

Buchführung von Versuchsläufen und Ergebnissen

Ich bin ein praktischer Forscher und teste gerne praktikable Lösungen, daher neige ich dazu, viele Experimente durchzuführen. Wenn ich beispielsweise eine Ähnlichkeitsbewertung zwischen Dokumenten berechne, möchte ich möglicherweise viele Maßnahmen ausprobieren. Tatsächlich muss ich für jede Maßnahme möglicherweise mehrere Läufe durchführen, um die Wirkung einiger Parameter zu testen. Bisher habe …

11 tools experiments

3

Unüberwachtes Lernen von Funktionen für NER

Ich habe das NER-System unter Verwendung des CRF-Algorithmus mit meinen handgefertigten Funktionen implementiert, die ziemlich gute Ergebnisse lieferten. Die Sache ist, dass ich viele verschiedene Funktionen verwendet habe, einschließlich POS-Tags und Lemmas. Jetzt möchte ich das gleiche NER für verschiedene Sprachen erstellen. Das Problem hier ist, dass ich keine POS-Tags …

11 nlp text-mining feature-extraction