Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

1
t-SNE Python-Implementierung: Kullback-Leibler-Divergenz
t-SNE reduziert wie in [1] schrittweise die Kullback-Leibler (KL) -Divergenz, bis eine bestimmte Bedingung erfüllt ist. Die Entwickler von t-SNE schlagen vor, die KL-Divergenz als Leistungskriterium für die Visualisierungen zu verwenden: Sie können die von t-SNE gemeldeten Kullback-Leibler-Divergenzen vergleichen. Es ist vollkommen in Ordnung, t-SNE zehnmal auszuführen und die Lösung …


4
Arbeiten mit HPC-Clustern
An meiner Universität haben wir einen HPC-Computercluster. Ich benutze den Cluster, um Klassifikatoren zu trainieren und so weiter. Um einen Job an den Cluster zu senden (z. B. Python-Scikit-Lernskript), muss ich normalerweise ein Bash-Skript schreiben, das (unter anderem) einen Befehl wie enthält qsub script.py. Ich finde diesen Prozess jedoch sehr, …



3
Wie verarbeite ich Anfragen in natürlicher Sprache?
Ich bin neugierig auf Fragen in natürlicher Sprache. Stanford verfügt über eine anscheinend starke Software zur Verarbeitung natürlicher Sprache . Ich habe auch die Apache OpenNLP-Bibliothek und die Allgemeine Architektur für Text Engineering gesehen . Es gibt unglaublich viele Verwendungsmöglichkeiten für die Verarbeitung natürlicher Sprache, und das macht es schwierig, …
11 nlp 

3
Data Science-orientierter Datensatz / Forschungsfrage für die Statistik-MSc-Arbeit
Ich möchte 'Data Science' erforschen. Der Begriff scheint mir ein wenig vage zu sein, aber ich erwarte, dass er Folgendes erfordert: maschinelles Lernen (anstelle traditioneller Statistiken); Ein Datensatz, der groß genug ist, um Analysen für Cluster auszuführen. Was sind einige gute Datensätze und Probleme, auf die ein Statistiker mit Programmierhintergrund …

1
scikit-learn n_jobs-Parameter zur CPU-Auslastung und zum Arbeitsspeicher
In den meisten Schätzern für Scikit-Learn gibt es n_jobsin fit/ predictMethoden einen Parameter zum Erstellen paralleler Jobs mit joblib. Ich habe festgestellt, dass durch das Festlegen von -1nur 1 Python-Prozess die Kerne maximal genutzt werden und die CPU-Auslastung 2500% übersteigt. Dies unterscheidet sich erheblich von der Einstellung auf eine positive …


2
Seltsames Verhalten mit Adam Optimizer beim zu langen Training
Ich versuche, ein einzelnes Perzeptron (1000 Eingabeeinheiten, 1 Ausgabe, keine versteckten Ebenen) auf 64 zufällig generierten Datenpunkten zu trainieren. Ich verwende Pytorch mit dem Adam-Optimierer: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, …

4
Maschinelles Lernen vs Deep Learning
Ich bin etwas verwirrt über den Unterschied zwischen den Begriffen "Maschinelles Lernen" und "Deep Learning". Ich habe es gegoogelt und viele Artikel gelesen, aber es ist mir immer noch nicht sehr klar. Eine bekannte Definition von maschinellem Lernen von Tom Mitchell ist: Ein Computerprogramm soll aus der Erfahrung E in …

4
Leistungsmaß: Warum heißt es Rückruf?
Die Genauigkeit ist der Bruchteil der abgerufenen Instanzen, die relevant sind, während der Rückruf (auch als Empfindlichkeit bezeichnet) der Bruchteil der relevanten Instanzen ist, die abgerufen werden. Ich kenne ihre Bedeutung, aber ich weiß nicht, warum es Rückruf heißt ? Ich bin kein englischer Muttersprachler. Ich weiß, dass Rückruf bedeutet, …

4
Über- / Unteranpassung mit Datensatzgröße
In der folgenden Grafik x-Achse => Datensatzgröße y-Achse => Kreuzvalidierungsergebnis Die rote Linie steht für Trainingsdaten Die grüne Linie dient zum Testen von Daten In einem Tutorial, auf das ich mich beziehe, sagt der Autor, dass der Punkt, an dem sich die rote und die grüne Linie überlappen, bedeutet: Es …


1
Intuition für den Regularisierungsparameter in SVM
Wie ändert das Variieren des Regularisierungsparameters in einer SVM die Entscheidungsgrenze für einen nicht trennbaren Datensatz? Eine visuelle Antwort und / oder ein Kommentar zu den einschränkenden Verhaltensweisen (für große und kleine Regularisierung) wäre sehr hilfreich.
11 svm 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.