Data Science

1

Algorithmen zum Aggregieren doppelter Identitäten basierend auf nicht numerischen Daten?

Ich habe einen großen Datensatz (2 Millionen Einträge) von Personen, aber viele Personen haben mehrere Einträge in der Datenbank mit leicht (oder signifikant) unterschiedlichen identifizierenden Informationen. Zum Beispiel kann ich J. Doe und John Doe haben, oder ich kann John Doe mit einer zugehörigen E-Mail-Adresse und John Doe ohne eine …

7 clustering algorithms

3

Erläutern Sie die Ausgabe eines bestimmten Klassifikators für die Funktionen

Ist es bei einem binären Klassifikator immer möglich zu erklären, warum er eine Eingabe als positive Klasse klassifiziert hat? Und damit meine ich, wenn wir eine große Anzahl von Funktionen haben, gibt es ein Tool, das sagt: "Für diese Ausgabe waren dies die Funktionen, die am meisten dafür verantwortlich waren, …

7 machine-learning classification feature-extraction

2

Warum geht Q Learning auseinander?

Die Zustandswerte meines Q-Learning-Algorithmus weichen immer wieder ins Unendliche ab, was bedeutet, dass auch meine Gewichte voneinander abweichen. Ich verwende ein neuronales Netzwerk für meine Wertzuordnung. Ich habe es versucht: Beschneiden des "Belohnungs + Rabatt * Maximalwert der Aktion" (max / min auf 50 / -50 eingestellt) Einstellen einer niedrigen …

7 machine-learning python reinforcement-learning q-learning

1

Einzelne E-Mails aus einem E-Mail-Thread extrahieren

Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen. Betrachten Sie zum Beispiel die folgende Meldung. Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. …

7 classification scikit-learn apache-spark preprocessing sentiment-analysis

2

Empfehlungssystem basierend auf Kaufhistorie, nicht Bewertungen

Ich untersuche Optionen für Empfehlungssysteme, die für die Versicherungsbranche optimiert sind und die dies berücksichtigen würden i) Produktbestände ii) Benutzereigenschaften (Segment, Alter, Wohlstand usw.). Ich möchte das betonen a) Es sind keine Produktbewertungen verfügbar, daher ist eine kollaborative Filterung keine Option b) empfohlene Produkte müssen nicht mit bereits gekauften Produkten …

7 machine-learning python r recommender-system

2

Coursera ML - Beeinflusst die Wahl des Optimierungsalgorithmus die Genauigkeit der logistischen Regression mehrerer Klassen?

Ich habe kürzlich Übung 3 von Andrew Ngs maschinellem Lernen auf Coursera mit Python abgeschlossen . Als ich die Teile 1.4 bis 1.4.1 der Übung zum ersten Mal absolvierte, hatte ich Schwierigkeiten sicherzustellen, dass mein trainiertes Modell die Genauigkeit aufweist, die den erwarteten 94,9% entspricht. Selbst nachdem ich debuggt und …

7 machine-learning python logistic-regression accuracy

1

Wie kann man die Einbettungsschicht von Keras richtig verwenden?

Ich bin etwas verwirrt über die ordnungsgemäße Verwendung der Einbettungsebene in Keras für seq2seq-Zwecke (ich möchte das Tutorial zur maschinellen Übersetzung von TensorFlow se2seq in Keras rekonstruieren ). Meine Fragen sind folgende: Ich verstehe, dass durch das Einbetten von Ebenen Wortwerte in einem Satz in eine Darstellung mit fester Dimension …

7 deep-learning tensorflow keras word-embeddings

1

CNN zur Phonemerkennung

Ich studiere derzeit dieses Papier , in dem CNN für die Phonemerkennung unter Verwendung der visuellen Darstellung von Log-Mel-Filterbänken und eines begrenzten Gewichtsverteilungsschemas angewendet wird. Die Visualisierung von Log-Mel-Filterbänken ist eine Möglichkeit, die Daten darzustellen und zu normalisieren. Sie schlagen vor, als Spektogramm mit RGB-Farben zu visualisieren. Das Beste, was …

7 classification keras convnet training audio-recognition

3

Warum verwenden wir einen Gaußschen Kernel als Ähnlichkeitsmetrik?

Warum wird beim graphbasierten Clustering der Gaußsche Kernel anstelle des Abstands zwischen zwei Punkten als Ähnlichkeitsmetrik bevorzugt?

7 machine-learning data-mining clustering metric

2

Verstehen, wie verteiltes PCA funktioniert

Im Rahmen eines Big-Data-Analyseprojekts arbeite ich an: Ich muss PCA für einige Daten mithilfe eines Cloud-Computing-Systems durchführen. In meinem Fall verwende ich Amazon EMR für den Job und insbesondere Spark. Abgesehen von der Frage "Wie man PCA-in-Spark durchführt" möchte ich ein Verständnis dafür bekommen, wie die Dinge hinter den Kulissen …

7 data-mining bigdata apache-spark pca distributed

2

Vorhersage nicht negativer spärlicher Zeitreihendaten

Ich habe einen Zeitreihendatensatz (tägliche Häufigkeit), der den Verkauf eines Produkts an einen Kunden im Laufe der Zeit darstellt. Der Umsatz wird wie folgt dargestellt: [ 0 , 0 , 0 , 0 , 24 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , …

7 time-series forecast

1

Ableiten von Backpropagation-Gleichungen "nativ" in Tensorform

Das Bild zeigt eine typische Ebene irgendwo in einem Feed-Forward-Netzwerk: a(k)iai(k)a_i^{(k)} ist der Aktivierungswert des -Neurons in der -Schicht.ithithi^{th}kthkthk^{th} W(k)ijWij(k)W_{ij}^{(k)} ist das Gewicht, das das ithithi^{th} Neuron in der kthkthk^{th} Schicht mit dem jt hjthj^{th} Neuron in der ( k + 1)t h(k+1)th(k+1)^{th} Schicht verbindet. z( k + 1 )jzj(k+1)z_j^{(k+1)} …

7 backpropagation theory linear-algebra

1

Warum k-fach Cross Validation (CV) Overfits? Oder warum tritt eine Diskrepanz zwischen Lebenslauf und Testsatz auf?

Vor kurzem habe ich an einem Projekt gearbeitet und festgestellt, dass meine Kreuzvalidierungsfehlerrate sehr niedrig ist, aber die Fehlerrate des Testsatzes sehr hoch. Dies könnte darauf hinweisen, dass mein Modell überpasst. Warum passt meine Kreuzvalidierung nicht über, während mein Testset überpasst? Insbesondere habe ich ungefähr 2 Millionen Beobachtungen mit 100 …

7 cross-validation overfitting

6

NLP: Was sind einige beliebte Pakete für die Tokenisierung mit mehreren Wörtern?

Ich beabsichtige, eine Reihe von Stellenbeschreibungstexten zu kennzeichnen. Ich habe die Standard-Tokenisierung mit Leerzeichen als Trennzeichen versucht. Ich habe jedoch festgestellt, dass es einige Mehrwortausdrücke gibt, die durch Leerzeichen geteilt werden, was bei der nachfolgenden Verarbeitung zu Genauigkeitsproblemen führen kann. Deshalb möchte ich die interessantesten / informativsten Kollokationen in diesen …

7 nlp nltk tokenization

1

Was fehlt in der folgenden Implementierung von Curriculum Learning in einem tiefen neuronalen Netz?

Zunächst haben wir eine Klassifizierungsaufgabe. Daher verwenden wir zur Klassifizierung die typische Softmax-Kreuzentropie. Die derzeitige Implementierung des Lehrplanlernens ist wie folgt. Zuerst trainieren wir unsere beste Version des neuronalen Netzes In der letzten Epoche erhalten wir alle Kreuzentropien für alle Instanzen. So werden kleinere Kreuzentropien besser klassifiziert und größere nicht …

7 deep-learning