Data Science

2

Wie erhalte ich die Anzahl der Silben in einem Wort?

Ich habe bereits durchgemacht diesen Beitrag die Anwendungen nltk‚s cmudictzum Zählen der Anzahl von Silben in einem Wort: from nltk.corpus import cmudict d = cmudict.dict() def nsyl(word): return [len(list(y for y in x if y[-1].isdigit())) for x in d[word.lower()]] Für Wörter außerhalb des cmu-Wörterbuchs wie z. B. Namen Rohitgibt es …

8 nlp

2

Warum führt eine Verringerung der SGD-Lernrate zu einer massiven Erhöhung der Genauigkeit?

In den Papieren, wie dies oft ich die Ausbildung Kurven mit dieser Art von Form sehen: In diesem Fall wurde SGD mit einem Faktor von 0,9 verwendet und die Lernrate nahm alle 30 Epochen um den Faktor 10 ab. Warum nimmt der Fehler so stark ab, wenn die Lernrate geändert …

8 optimization

2

Verwenden von TF-IDF mit anderen Funktionen in SKLearn

Was ist der beste / richtige Weg, um Textanalyse mit anderen Funktionen zu kombinieren? Zum Beispiel habe ich einen Datensatz mit Text, aber auch anderen Funktionen / Kategorien. Der TF-IDF-Vektorisierer von SKlearn wandelt Textdaten in spärliche Matrizen um. Ich kann diese spärlichen Matrizen zum Beispiel direkt mit einem Naive Bayes-Klassifikator …

8 python scikit-learn pandas tfidf

1

Mache ich eine Protokolltransformation von Daten korrekt?

Ich mache eine explorative Datenanalyse für einige Daten und erhalte folgende Histogramme: Das sieht aus wie ein Kandidat für eine Protokolltransformation der Daten, daher führe ich den folgenden Python-Code aus, um die Daten zu transformieren: df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() Und ich bekomme diese neue Darstellung der transformierten Histogramme: Stimmt es, dass …

8 python statistics pandas

1

Wie können kontinuierliche Daten in Entscheidungsbäumen (besser) diskretisiert werden?

Standardentscheidungsbaumalgorithmen wie ID3 und C4.5 haben einen Brute-Force-Ansatz zur Auswahl des Schnittpunkts in einem kontinuierlichen Feature. Jeder einzelne Wert wird als möglicher Schnittpunkt geprüft. (Mit getestet meine ich, dass zB der Informationsgewinn bei jedem möglichen Wert berechnet wird.) Mit vielen fortlaufenden Funktionen und vielen Daten (daher viele Werte für jede …

8 decision-trees

3

ReLU vs Sigmoid im mnist Beispiel

BITTE BEACHTEN SIE: Ich versuche nicht, das folgende Beispiel zu verbessern. Ich weiß, dass Sie eine Genauigkeit von über 99% erreichen können. Der gesamte Code ist in Frage. Wenn ich diesen einfachen Code ausprobiert habe, erhalte ich eine Genauigkeit von 95%. Wenn ich einfach die Aktivierungsfunktion von Sigmoid auf Relu …

8 python neural-network keras image-classification

1

Was ist ein Turm?

In vielen Tensorflow-Tutorials ( Beispiel ) werden "Türme" ohne Definition erwähnt. Was ist damit gemeint?

8 deep-learning tensorflow terminology

2

Train / Test Split nach SMOTE durchführen

Ich habe es mit sehr unausgeglichenen Daten zu tun, daher habe ich den SMOTE-Algorithmus verwendet, um den Datensatz neu abzutasten. Nach dem SMOTE-Resampling habe ich den neu abgetasteten Datensatz in Trainings- / Testsätze aufgeteilt, wobei ich den Trainingssatz zum Erstellen eines Modells und den Testsatz zum Bewerten des Modells verwendet …

8 machine-learning unbalanced-classes evaluation

2

Clustering hochdimensionaler Daten

TL; DR: Wie kann ich bei einem großen Bilddatensatz (ca. 36 GiB Rohpixel) unbeschrifteter Daten die Bilder (basierend auf den Pixelwerten) gruppieren, ohne zunächst die Anzahl der Cluster Kzu kennen? Ich arbeite derzeit an einem unbeaufsichtigten Lernprojekt, um Bilder zu gruppieren. Stellen Sie sich das als Clustering von MNIST mit …

8 clustering tensorflow k-means unsupervised-learning tsne

4

Mustererkennung am Finanzmarkt

Welches Modell für maschinelles Lernen oder tiefes Lernen ( muss überwachtes Lernen sein ) eignet sich am besten zum Erkennen von Mustern auf den Finanzmärkten? Was ich unter Mustererkennung auf dem Finanzmarkt verstehe: Das folgende Bild zeigt, wie ein Beispielmuster (dh Kopf und Schulter) aussieht: Bild 1: Das folgende Bild …

8 machine-learning deep-learning

3

Wie erhält man die Wahrscheinlichkeit, zu Clustern für k-Mittel zu gehören?

Ich muss die Wahrscheinlichkeit für jeden Punkt in meinem Datensatz ermitteln. Die Idee ist, die Abstandsmatrix zu berechnen (Abstände der ersten Spalte zum ersten Cluster, Abstände der zweiten Spalte zum zweiten Cluster usw.). Der nächstgelegene Punkt hat die Wahrscheinlichkeit = 1, der entfernteste hat die Wahrscheinlichkeit = 0. Das Problem …

8 python clustering k-means

3

Keras-Backend-Tensorflow auf GPU umstellen

Ich verwende die Keras-Tensorflow-Kombination, die mit der CPU-Option installiert wurde (sie soll robuster sein), aber jetzt möchte ich sie mit der GPU-Version ausprobieren. Gibt es eine bequeme Möglichkeit zu wechseln? Oder soll ich Tensorflow komplett neu installieren? Ist die GPU-Version zuverlässig?

8 tensorflow keras gpu

1

Ideen für ein Prospect-Scoring-Modell

Ich muss über ein Modell nachdenken, um potenzielle Kunden (Unternehmen) zu identifizieren, die eine hohe Chance haben, in Kunden umgewandelt zu werden, und ich suche Rat, welche Art von Modell von Nutzen sein könnte. Die Datenbanken I haben sind, soweit ich weiß (ich habe sie noch nicht), die list of …

8 machine-learning predictive-modeling supervised-learning unsupervised-learning

3

Was ist der Unterschied zwischen der verbleibenden Quadratsumme und den gewöhnlichen kleinsten Quadraten?

Sie sehen für mich genauso aus, aber ich bin mir nicht sicher. Update: Rückblickend war dies keine sehr gute Frage. OLS bezieht sich auf das Anpassen einer Zeile an Daten und RSS ist die Kostenfunktion, die OLS verwendet. Es werden die Parameter gefunden, die die geringste Restsumme der quadratischen Fehler …

8 linear-regression

1

Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?

Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen. Kann mir …

8 machine-learning dataset recommender-system