Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

2
Wie erhalte ich die Anzahl der Silben in einem Wort?
Ich habe bereits durchgemacht diesen Beitrag die Anwendungen nltk‚s cmudictzum Zählen der Anzahl von Silben in einem Wort: from nltk.corpus import cmudict d = cmudict.dict() def nsyl(word): return [len(list(y for y in x if y[-1].isdigit())) for x in d[word.lower()]] Für Wörter außerhalb des cmu-Wörterbuchs wie z. B. Namen Rohitgibt es …
8 nlp 


2
Verwenden von TF-IDF mit anderen Funktionen in SKLearn
Was ist der beste / richtige Weg, um Textanalyse mit anderen Funktionen zu kombinieren? Zum Beispiel habe ich einen Datensatz mit Text, aber auch anderen Funktionen / Kategorien. Der TF-IDF-Vektorisierer von SKlearn wandelt Textdaten in spärliche Matrizen um. Ich kann diese spärlichen Matrizen zum Beispiel direkt mit einem Naive Bayes-Klassifikator …

1
Mache ich eine Protokolltransformation von Daten korrekt?
Ich mache eine explorative Datenanalyse für einige Daten und erhalte folgende Histogramme: Das sieht aus wie ein Kandidat für eine Protokolltransformation der Daten, daher führe ich den folgenden Python-Code aus, um die Daten zu transformieren: df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() Und ich bekomme diese neue Darstellung der transformierten Histogramme: Stimmt es, dass …

1
Wie können kontinuierliche Daten in Entscheidungsbäumen (besser) diskretisiert werden?
Standardentscheidungsbaumalgorithmen wie ID3 und C4.5 haben einen Brute-Force-Ansatz zur Auswahl des Schnittpunkts in einem kontinuierlichen Feature. Jeder einzelne Wert wird als möglicher Schnittpunkt geprüft. (Mit getestet meine ich, dass zB der Informationsgewinn bei jedem möglichen Wert berechnet wird.) Mit vielen fortlaufenden Funktionen und vielen Daten (daher viele Werte für jede …

3
ReLU vs Sigmoid im mnist Beispiel
BITTE BEACHTEN SIE: Ich versuche nicht, das folgende Beispiel zu verbessern. Ich weiß, dass Sie eine Genauigkeit von über 99% erreichen können. Der gesamte Code ist in Frage. Wenn ich diesen einfachen Code ausprobiert habe, erhalte ich eine Genauigkeit von 95%. Wenn ich einfach die Aktivierungsfunktion von Sigmoid auf Relu …


2
Train / Test Split nach SMOTE durchführen
Ich habe es mit sehr unausgeglichenen Daten zu tun, daher habe ich den SMOTE-Algorithmus verwendet, um den Datensatz neu abzutasten. Nach dem SMOTE-Resampling habe ich den neu abgetasteten Datensatz in Trainings- / Testsätze aufgeteilt, wobei ich den Trainingssatz zum Erstellen eines Modells und den Testsatz zum Bewerten des Modells verwendet …

2
Clustering hochdimensionaler Daten
TL; DR: Wie kann ich bei einem großen Bilddatensatz (ca. 36 GiB Rohpixel) unbeschrifteter Daten die Bilder (basierend auf den Pixelwerten) gruppieren, ohne zunächst die Anzahl der Cluster Kzu kennen? Ich arbeite derzeit an einem unbeaufsichtigten Lernprojekt, um Bilder zu gruppieren. Stellen Sie sich das als Clustering von MNIST mit …

4
Mustererkennung am Finanzmarkt
Welches Modell für maschinelles Lernen oder tiefes Lernen ( muss überwachtes Lernen sein ) eignet sich am besten zum Erkennen von Mustern auf den Finanzmärkten? Was ich unter Mustererkennung auf dem Finanzmarkt verstehe: Das folgende Bild zeigt, wie ein Beispielmuster (dh Kopf und Schulter) aussieht: Bild 1: Das folgende Bild …


3
Keras-Backend-Tensorflow auf GPU umstellen
Ich verwende die Keras-Tensorflow-Kombination, die mit der CPU-Option installiert wurde (sie soll robuster sein), aber jetzt möchte ich sie mit der GPU-Version ausprobieren. Gibt es eine bequeme Möglichkeit zu wechseln? Oder soll ich Tensorflow komplett neu installieren? Ist die GPU-Version zuverlässig?
8 tensorflow  keras  gpu 



1
Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?
Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen. Kann mir …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.