Data Science

3

Was nützt die Erfassung von Benutzerdaten neben der Schaltung von Anzeigen?

Nun, dies scheint der am besten geeignete Ort für diese Frage zu sein. Jede Website sammelt Daten des Benutzers, einige nur zur Benutzerfreundlichkeit und Personalisierung, aber die meisten wie soziale Netzwerke verfolgen jede Bewegung im Web, einige kostenlose Apps auf Ihrem Telefon scannen Textnachrichten, den Anrufverlauf und so weiter. All …

8 data-mining

2

Wie erstelle ich eine Textsuchmaschine?

Ich habe eine HTML-Zeichenfolge und möchte herausfinden, ob ein von mir angegebenes Wort in dieser Zeichenfolge relevant ist. Die Relevanz könnte anhand der Häufigkeit im Text gemessen werden. Ein Beispiel zur Veranschaulichung meines Problems: this is an awesome bike store bikes can be purchased online. the bikes we own rock. …

8 machine-learning data-mining

1

Warum lernt eine eingeschränkte Boltzman-Maschine (RBM) sehr ähnliche Gewichte?

Dies sind 4 verschiedene Gewichtsmatrizen, die ich nach dem Training einer eingeschränkten Boltzman-Maschine (RBM) mit ~ 4k sichtbaren Einheiten und nur 96 versteckten Einheiten / Gewichtsvektoren erhalten habe. Wie Sie sehen können, sind die Gewichte sehr ähnlich - sogar schwarze Pixel im Gesicht werden reproduziert. Die anderen 92 Vektoren sind …

8 rbm

4

Data Science und MapReduce-Programmiermodell von Hadoop

Welche verschiedenen Klassen von datenwissenschaftlichen Problemen können mit dem Mapreduce-Programmiermodell gelöst werden?

8 apache-hadoop map-reduce

2

Was sind einige Standardmethoden zur Berechnung der Entfernung zwischen einzelnen Suchanfragen?

Ich stellte eine ähnliche Frage nach der Entfernung zwischen "Dokumenten" (Wikipedia-Artikel, Nachrichten usw.). Ich habe dies zu einer separaten Frage gemacht, da Suchanfragen erheblich kleiner als Dokumente und erheblich lauter sind. Ich weiß daher nicht (und bezweifle), ob hier die gleichen Entfernungsmetriken verwendet werden würden. Entweder werden lexikalische Vanille-Distanzmetriken oder …

8 machine-learning nlp search

4

Online-Tutorial zum maschinellen Lernen

Kennt jemand einige gute Tutorials zu Online-Techniken des maschinellen Lernens? Dh wie es in Echtzeitumgebungen verwendet werden kann, was sind die Hauptunterschiede zu normalen Methoden des maschinellen Lernens usw. UPD: Vielen Dank an alle für die Antworten. Mit "online" meine ich Methoden, die in einem Echtzeitmodus trainiert werden können, basierend …

8 machine-learning education beginner

3

Ähnlichkeit der Score-Matrix-Zeichenfolge

Ich habe eine Menge Dokumente, die eine Menge Schlüsselwertpaare enthalten. Der Schlüssel ist möglicherweise nicht eindeutig, sodass möglicherweise mehrere Schlüssel desselben Typs mit unterschiedlichen Werten vorhanden sind. Ich möchte die Ähnlichkeit der Schlüssel zwischen 2 Dokumenten vergleichen. Insbesondere die String-Ähnlichkeit dieser Werte. Ich denke darüber nach, so etwas wie den …

8 algorithms similarity

3

Funktionsauswahl zum Verfolgen der Benutzeraktivität innerhalb einer Anwendung

Ich entwickle ein System, das den "Kontext" der Benutzeraktivität innerhalb einer Anwendung erfassen soll. Es ist ein Framework, mit dem Webanwendungen Benutzeraktivitäten basierend auf Anforderungen an das System kennzeichnen können. Es ist zu hoffen, dass diese Daten dann ML-Funktionen wie das Abrufen kontextsensitiver Informationen unterstützen können. Ich habe Probleme bei …

8 feature-selection

2

Linear ansteigende Daten durch manuelles Zurücksetzen

Ich habe einen linear ansteigenden Zeitreihendatensatz eines Sensors mit Wertebereichen zwischen 50 und 150. Ich habe einen einfachen linearen Regressionsalgorithmus implementiert , um eine Regressionslinie an solche Daten anzupassen, und ich sage das Datum voraus, an dem die Reihe erreicht werden würde 120. Alles funktioniert gut, wenn sich die Serie …

8 machine-learning statistics time-series

3

Was sind die beliebtesten Anwendungsfälle für Data Science-Anwendungen für Consumer-Web-Unternehmen?

Der beliebteste Anwendungsfall scheinen Empfehlungssysteme verschiedener Art zu sein (z. B. Empfehlungen für Einkaufsartikel, Benutzer in sozialen Netzwerken usw.). Aber was sind andere typische datenwissenschaftliche Anwendungen, die in anderen Branchen verwendet werden können? Zum Beispiel: Vorhersage der Kundenabwanderung mit maschinellem Lernen, Bewertung des Kundenlebensdauerwerts, Umsatzprognose.

8 usecase consumerweb

2

So erhalten Sie eine aggregierte Verwirrungsmatrix aus n verschiedenen Klassifikationen

Ich möchte die Genauigkeit einer Methodik testen. Ich habe es ~ 400 Mal ausgeführt und für jeden Lauf eine andere Klassifizierung erhalten. Ich habe auch die Grundwahrheit, dh die wirkliche Klassifikation, gegen die ich testen kann. Für jede Klassifikation habe ich eine Verwirrungsmatrix berechnet. Jetzt möchte ich diese Ergebnisse aggregieren, …

8 classification confusion-matrix accuracy

1

Kaskadierter Fehler im Apache-Sturm

Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten stapelweise zu verarbeiten und die Storm-Ergebnisse zu verwerfen, …

8 bigdata apache-hadoop

2

Mehrschichtige Rückausbreitung Neuronales Netz zur Klassifizierung

Kann mir jemand erklären, wie man Daten wie MNIST mit MLBP-Neural Network klassifiziert, wenn ich mehr als eine Ausgabe mache (zB 8)? Ich meine, wenn ich nur eine Ausgabe verwende, kann ich die Daten leicht klassifizieren, aber wenn ich mehr als verwende eine, welche Ausgabe soll ich wählen?

8 neural-network

4

Wie ersetze ich NaN-Werte für Bilddaten?

Mein Datensatz enthält insgesamt 200 Spalten, wobei jede Spalte in allen meinen Bildern demselben Pixel entspricht. Insgesamt habe ich 48.500 Zeilen. Die Beschriftungen für die Daten reichen von 0 bis 9. Die Daten sehen ungefähr so aus: raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 …

8 machine-learning python pandas numpy image-preprocessing

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn