Ich habe bereits durchgemacht diesen Beitrag die Anwendungen nltk‚s cmudictzum Zählen der Anzahl von Silben in einem Wort: from nltk.corpus import cmudict d = cmudict.dict() def nsyl(word): return [len(list(y for y in x if y[-1].isdigit())) for x in d[word.lower()]] Für Wörter außerhalb des cmu-Wörterbuchs wie z. B. Namen Rohitgibt es …
In den Papieren, wie dies oft ich die Ausbildung Kurven mit dieser Art von Form sehen: In diesem Fall wurde SGD mit einem Faktor von 0,9 verwendet und die Lernrate nahm alle 30 Epochen um den Faktor 10 ab. Warum nimmt der Fehler so stark ab, wenn die Lernrate geändert …
Was ist der beste / richtige Weg, um Textanalyse mit anderen Funktionen zu kombinieren? Zum Beispiel habe ich einen Datensatz mit Text, aber auch anderen Funktionen / Kategorien. Der TF-IDF-Vektorisierer von SKlearn wandelt Textdaten in spärliche Matrizen um. Ich kann diese spärlichen Matrizen zum Beispiel direkt mit einem Naive Bayes-Klassifikator …
Ich mache eine explorative Datenanalyse für einige Daten und erhalte folgende Histogramme: Das sieht aus wie ein Kandidat für eine Protokolltransformation der Daten, daher führe ich den folgenden Python-Code aus, um die Daten zu transformieren: df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() Und ich bekomme diese neue Darstellung der transformierten Histogramme: Stimmt es, dass …
Standardentscheidungsbaumalgorithmen wie ID3 und C4.5 haben einen Brute-Force-Ansatz zur Auswahl des Schnittpunkts in einem kontinuierlichen Feature. Jeder einzelne Wert wird als möglicher Schnittpunkt geprüft. (Mit getestet meine ich, dass zB der Informationsgewinn bei jedem möglichen Wert berechnet wird.) Mit vielen fortlaufenden Funktionen und vielen Daten (daher viele Werte für jede …
BITTE BEACHTEN SIE: Ich versuche nicht, das folgende Beispiel zu verbessern. Ich weiß, dass Sie eine Genauigkeit von über 99% erreichen können. Der gesamte Code ist in Frage. Wenn ich diesen einfachen Code ausprobiert habe, erhalte ich eine Genauigkeit von 95%. Wenn ich einfach die Aktivierungsfunktion von Sigmoid auf Relu …
Ich habe es mit sehr unausgeglichenen Daten zu tun, daher habe ich den SMOTE-Algorithmus verwendet, um den Datensatz neu abzutasten. Nach dem SMOTE-Resampling habe ich den neu abgetasteten Datensatz in Trainings- / Testsätze aufgeteilt, wobei ich den Trainingssatz zum Erstellen eines Modells und den Testsatz zum Bewerten des Modells verwendet …
TL; DR: Wie kann ich bei einem großen Bilddatensatz (ca. 36 GiB Rohpixel) unbeschrifteter Daten die Bilder (basierend auf den Pixelwerten) gruppieren, ohne zunächst die Anzahl der Cluster Kzu kennen? Ich arbeite derzeit an einem unbeaufsichtigten Lernprojekt, um Bilder zu gruppieren. Stellen Sie sich das als Clustering von MNIST mit …
Welches Modell für maschinelles Lernen oder tiefes Lernen ( muss überwachtes Lernen sein ) eignet sich am besten zum Erkennen von Mustern auf den Finanzmärkten? Was ich unter Mustererkennung auf dem Finanzmarkt verstehe: Das folgende Bild zeigt, wie ein Beispielmuster (dh Kopf und Schulter) aussieht: Bild 1: Das folgende Bild …
Ich muss die Wahrscheinlichkeit für jeden Punkt in meinem Datensatz ermitteln. Die Idee ist, die Abstandsmatrix zu berechnen (Abstände der ersten Spalte zum ersten Cluster, Abstände der zweiten Spalte zum zweiten Cluster usw.). Der nächstgelegene Punkt hat die Wahrscheinlichkeit = 1, der entfernteste hat die Wahrscheinlichkeit = 0. Das Problem …
Ich verwende die Keras-Tensorflow-Kombination, die mit der CPU-Option installiert wurde (sie soll robuster sein), aber jetzt möchte ich sie mit der GPU-Version ausprobieren. Gibt es eine bequeme Möglichkeit zu wechseln? Oder soll ich Tensorflow komplett neu installieren? Ist die GPU-Version zuverlässig?
Ich muss über ein Modell nachdenken, um potenzielle Kunden (Unternehmen) zu identifizieren, die eine hohe Chance haben, in Kunden umgewandelt zu werden, und ich suche Rat, welche Art von Modell von Nutzen sein könnte. Die Datenbanken I haben sind, soweit ich weiß (ich habe sie noch nicht), die list of …
Sie sehen für mich genauso aus, aber ich bin mir nicht sicher. Update: Rückblickend war dies keine sehr gute Frage. OLS bezieht sich auf das Anpassen einer Zeile an Daten und RSS ist die Kostenfunktion, die OLS verwendet. Es werden die Parameter gefunden, die die geringste Restsumme der quadratischen Fehler …
Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen. Kann mir …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.