Data Science

5

Gibt es einen Standardansatz zur Erkennung der kovariaten Verschiebung zwischen Trainings- und Testdaten? Dies wäre nützlich, um die Annahme zu bestätigen, dass in meiner Datenbank, die einige hundert Bilder enthält, eine kovariate Verschiebung vorliegt.

7 machine-learning classification dataset image-classification

5

Der beste Weg, um mit dem ngram nach einem ähnlichen Dokument zu suchen

Ich habe eine Datenbank mit ungefähr 200 Dokumenten, deren Ngramme ich extrahiert habe. Ich möchte das Dokument in meiner Datenbank finden, das einem Abfragedokument am ähnlichsten ist. Mit anderen Worten, ich möchte das Dokument in der Datenbank finden, die die meisten ngramme mit dem Abfragedokument teilt. Im Moment kann ich …

7 nlp similarity search information-retrieval

5

Reduzierung der Wirkung von Down-Wählern mit Bewertungssystem

Ich habe eine Seite, auf der Benutzer Dinge in einem 1-5-Sterne-System bewerten. Sobald ein Gegenstand die Spitze der Charts erreicht, neigen einige Benutzer dazu, ihn mit 1 Stern zu bewerten, obwohl er eine Mehrheit von 4-5 Sternen hat, um dorthin zu gelangen, wo er sich befindet. Es ist nicht weit …

7 statistics normalization

2

Unterschied zwischen Trainings- und Testdatenverteilung

Eine Grundannahme beim maschinellen Lernen ist, dass Trainings- und Testdaten aus derselben Population stammen und somit derselben Verteilung folgen. In der Praxis ist dies jedoch höchst unwahrscheinlich. Covariate Shift behebt dieses Problem. Kann jemand die folgenden Zweifel daran klären? Wie prüft man, ob zwei Verteilungen statistisch unterschiedlich sind? Kann die …

7 machine-learning classification dataset image-classification

2

Gibt es eine Bibliothek, die eine segmentierte lineare Regression in Python durchführen würde?

In R gibt es ein Paket mit dem Namen segmentiert. Gibt es in Python ein ähnliches Paket?

7 python regression linear-regression

3

Vorlagen mit Parametern in Textfragmenten identifizieren

Ich habe einen Datensatz mit Textfragmenten mit einer festen Struktur, die Parameter enthalten kann. Beispiele sind: Temperature today is 20 centigrades Temperature today is 28 centigrades oder Her eyes are blue and hair black. Her eyes are green and hair brown. Das erste Beispiel zeigt eine Vorlage mit einem numerischen …

7 machine-learning r nlp

2

Theoretische Grenze - Regressionsfehler

Die Bayes-Fehlerrate ist eine theoretische Grenze, die anhand einiger Daten die niedrigstmögliche Fehlerrate für ein Klassifizierungsproblem bestimmt. Ich habe mich gefragt, ob es für den Fall von Regressionsalgorithmen ein äquivalentes Konzept gibt. Mein Ziel ist es zu bestimmen, wie weit der Fehler meines Regressionsalgorithmus von dieser theoretischen Grenze entfernt ist, …

7 regression linear-regression

1

Projizieren von Daten von nach

Ich habe wenige Punkte in , dh die in eingebettete dimensionale Einheitskugel , und ich möchte sie auf , dh die 2-dimensionale , projizieren Einheitskugel (eingebettet in ), um sie mit der Einschränkung zu visualisieren, dass benachbarte Punkte in der Nähe sein sollten. Ich habe einige Zeit mit t-sne gespielt, …

7 machine-learning dimensionality-reduction visualization

1

Warum gibt die logistische Regression in Spark und R unterschiedliche Modelle für dieselben Daten zurück?

Ich habe die logistischen Regressionsmodelle für R ( glm) und Spark ( LogisticRegressionWithLBFGS) mit einem Datensatz von 390 obs verglichen . von 14 Variablen. Die Ergebnisse sind im Achsenabschnitt und in den Gewichten völlig unterschiedlich. Wie kann man das erklären? Hier sind die Ergebnisse von Spark (LogisticRegressionWithLBFGS): model.intercept : 1.119830027739959 …

7 machine-learning r logistic-regression apache-spark

4

Schulung und Test von AdaBoost für die Klassifizierung mit geringer Wahrscheinlichkeit

Ich habe einen Datensatz, den ich als Betrug / nicht Betrug klassifizieren möchte, und ich habe viele schwache Lernende. Ich mache mir Sorgen, dass es viel mehr Betrug als Betrug gibt, sodass meine schwachen Lernenden eine überdurchschnittliche Leistung erbringen, aber keine über 50% Genauigkeit im gesamten Satz. Meine Frage ist, …

7 classification unbalanced-classes

4

Wie hängt Data Science mit maschinellem Lernen zusammen?

Ich habe diesen Vergleich der analytischen Disziplinen und diese Perspektive des maschinellen Lernens durchlaufen , aber ich finde keine Antworten auf Folgendes: Wie hängt Data Science mit maschinellem Lernen zusammen? Wie hängt es nicht mit maschinellem Lernen zusammen?

7 machine-learning definitions knowledge-base

1

Wie vergleicht sich SQL Server Analysis Services mit R?

Dies mag eine zu weit gefasste Frage mit starken Meinungen sein, aber es fällt mir wirklich schwer, Informationen über das Ausführen verschiedener Algorithmen mit SQL Server Analysis Service-Data-Mining-Projekten im Vergleich zu R zu finden. Dies liegt hauptsächlich daran, dass alle Data-Science-Mitarbeiter mit mir zusammenarbeiten Ich habe keine Ahnung von SSAS, …

7 data-mining r algorithms

3

Warum führt die Anwendung von PCA auf Ziele zu einer Unteranpassung?

Das Ziel: Ich bin neu im maschinellen Lernen und Experimentieren mit neuronalen Netzen. Ich möchte ein Netzwerk aufbauen, das eine Reihe von 5 Bildern als Eingabe verwendet und das nächste Bild vorhersagt. Mein Datensatz ist nur für meine Experimente völlig künstlich. Zur Veranschaulichung hier einige Beispiele für Eingabe und erwartete …

7 machine-learning neural-network

1

Wie extrahiere ich Funktionen und klassifiziere Warn-E-Mails, die von Überwachungstools stammen, in die richtige Kategorie?

Mein Unternehmen bietet vielen seiner Kunden Managed Services an. Unsere Kunden verwenden normalerweise die folgenden Überwachungstools, um ihre Server / Webanwendungen zu überwachen: OpsView Nagios Pingdom Benutzerdefinierte Shell-Skripte Immer wenn ein Problem gefunden wird, geht eine Benachrichtigungsmail an unser Ops-Team, damit es das Problem beheben kann. Da wir Tausende von …

7 machine-learning classification clustering feature-extraction

1

Ähnlichkeitsmaß basierend auf mehreren Klassen aus einer hierarchischen Taxonomie?

Könnte jemand ein gutes Ähnlichkeitsmaß für Objekte mit mehreren Klassen empfehlen, bei denen jede Klasse Teil einer Hierarchie ist? Nehmen wir zum Beispiel an, die Klassen sehen folgendermaßen aus: 1 Produce 1.1 Eggs 1.1.1 Duck eggs 1.1.2 Chicken eggs 1.2 Milk 1.2.1 Cow milk 1.2.2 Goat milk 2 Baked goods …

7 similarity