Data Science classification

1

Welcher Deep-Learning-Textklassifizierer ist gut für Gesundheitsdaten?

Ich habe einen Datensatz wie diesen: postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slowly cut usage of drugs …

7 machine-learning deep-learning classification text-mining

3

Erläutern Sie die Ausgabe eines bestimmten Klassifikators für die Funktionen

Ist es bei einem binären Klassifikator immer möglich zu erklären, warum er eine Eingabe als positive Klasse klassifiziert hat? Und damit meine ich, wenn wir eine große Anzahl von Funktionen haben, gibt es ein Tool, das sagt: "Für diese Ausgabe waren dies die Funktionen, die am meisten dafür verantwortlich waren, …

7 machine-learning classification feature-extraction

1

Einzelne E-Mails aus einem E-Mail-Thread extrahieren

Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen. Betrachten Sie zum Beispiel die folgende Meldung. Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. …

7 classification scikit-learn apache-spark preprocessing sentiment-analysis

1

CNN zur Phonemerkennung

Ich studiere derzeit dieses Papier , in dem CNN für die Phonemerkennung unter Verwendung der visuellen Darstellung von Log-Mel-Filterbänken und eines begrenzten Gewichtsverteilungsschemas angewendet wird. Die Visualisierung von Log-Mel-Filterbänken ist eine Möglichkeit, die Daten darzustellen und zu normalisieren. Sie schlagen vor, als Spektogramm mit RGB-Farben zu visualisieren. Das Beste, was …

7 classification keras convnet training audio-recognition

1

So generieren Sie Trainingsdaten für OCR

Ich versuche, ein optisches Zeichenerkennungssystem zum Erkennen des Kennzeichens (indonesisches Kennzeichen) aufzubauen. Leider ist kein Trainingssatz verfügbar, aber ich habe die Schriftart gefunden. Ich versuche, die Trainingsdaten zu generieren, indem ich das Bild des Kennzeichens mit Kerneln zusammenfalte (etwas wie Gaußsche Unschärfe, Box-Unschärfe) mit Python, aber es ähnelt nicht echten …

7 machine-learning python classification data

2

Warum werden Präzision und Rückruf in der F1-Bewertung anstelle von Präzision und Kapitalwert verwendet?

Bei binären Klassifizierungsproblemen scheint der F1-Score häufig als Leistungsmaß verwendet zu werden. Soweit ich verstanden habe, besteht die Idee darin, den besten Kompromiss zwischen Präzision und Rückruf zu finden. Die Formel für die F1-Punktzahl ist in Präzision und Rückruf symmetrisch. Es gibt jedoch (und das stört mich) eine Asymmetrie zwischen …

7 classification binary scoring

2

SPARK Mllib: Logistische Regression für mehrere Klassen, wie erhält man die Wahrscheinlichkeiten aller Klassen und nicht die oberste?

Ich benutze LogisticRegressionWithLBFGS, um einen Klassifikator für mehrere Klassen zu trainieren. Gibt es eine Möglichkeit, die Wahrscheinlichkeit aller Klassen (nicht nur der Spitzenkandidatenklasse) zu ermitteln, wenn ich das Modell an neuen unsichtbaren Stichproben teste? PS Ich bin nicht unbedingt verpflichtet, den LBFGS-Klassifikator zu verwenden, möchte aber die logistische Regression in …

7 classification apache-spark multiclass-classification

3

Eine Hot-Codierung für eine große Anzahl von Werten

Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist? In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht. Wie gehen wir mit solchen …

7 machine-learning data-mining classification dataset categorical-data

5

Gibt es einen Unterschied zwischen „Klassifizierung“ und „Kennzeichnung“?

Bis vor kurzem dachte ich, dass "Kennzeichnung" und "Klassifizierung" Synonyme sind. Aber als ich eine andere Frage zur Terminologie in der Bildverarbeitung stellte, dachte ich darüber nach: Gibt es einen Unterschied zwischen "Kennzeichnung" und "Klassifizierung"? Ich dachte, dass die "Klasse" das Konzept ist, das Sie erkennen möchten, und "Label" ist …

7 classification terminology

5

Covariate Shift Detection

Gibt es einen Standardansatz zur Erkennung der kovariaten Verschiebung zwischen Trainings- und Testdaten? Dies wäre nützlich, um die Annahme zu bestätigen, dass in meiner Datenbank, die einige hundert Bilder enthält, eine kovariate Verschiebung vorliegt.

7 machine-learning classification dataset image-classification

2

Unterschied zwischen Trainings- und Testdatenverteilung

Eine Grundannahme beim maschinellen Lernen ist, dass Trainings- und Testdaten aus derselben Population stammen und somit derselben Verteilung folgen. In der Praxis ist dies jedoch höchst unwahrscheinlich. Covariate Shift behebt dieses Problem. Kann jemand die folgenden Zweifel daran klären? Wie prüft man, ob zwei Verteilungen statistisch unterschiedlich sind? Kann die …

7 machine-learning classification dataset image-classification

4

Schulung und Test von AdaBoost für die Klassifizierung mit geringer Wahrscheinlichkeit

Ich habe einen Datensatz, den ich als Betrug / nicht Betrug klassifizieren möchte, und ich habe viele schwache Lernende. Ich mache mir Sorgen, dass es viel mehr Betrug als Betrug gibt, sodass meine schwachen Lernenden eine überdurchschnittliche Leistung erbringen, aber keine über 50% Genauigkeit im gesamten Satz. Meine Frage ist, …

7 classification unbalanced-classes

1

Wie extrahiere ich Funktionen und klassifiziere Warn-E-Mails, die von Überwachungstools stammen, in die richtige Kategorie?

Mein Unternehmen bietet vielen seiner Kunden Managed Services an. Unsere Kunden verwenden normalerweise die folgenden Überwachungstools, um ihre Server / Webanwendungen zu überwachen: OpsView Nagios Pingdom Benutzerdefinierte Shell-Skripte Immer wenn ein Problem gefunden wird, geht eine Benachrichtigungsmail an unser Ops-Team, damit es das Problem beheben kann. Da wir Tausende von …

7 machine-learning classification clustering feature-extraction

1

Wie geht der naive Bayes-Klassifikator mit fehlenden Daten im Training um?

Naive Bayes geht offenbar unterschiedlich mit fehlenden Daten um, je nachdem, ob sie in Trainings- oder Test- / Klassifizierungsinstanzen vorhanden sind. Bei der Klassifizierung von Instanzen wird das Attribut mit dem fehlenden Wert einfach nicht in die Wahrscheinlichkeitsberechnung einbezogen ( http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf ). Im Training "ist die Instanz [mit den fehlenden …

7 machine-learning data-mining classification naive-bayes-classifier

6

Welcher Kreuzvalidierungstyp eignet sich am besten für das Problem der binären Klassifizierung?

Datensatz sieht aus wie: 25000 Beobachtungen Bis zu 15 Prädiktoren verschiedener Typen: numerisch, kategorial für mehrere Klassen, binär Zielvariable ist binär Welche Kreuzvalidierungsmethode ist typisch für diese Art von Problemen? Standardmäßig verwende ich K-Fold. Wie viele Falten reichen in diesem Fall aus? (Eines der Modelle, die ich benutze, ist zufällige …

7 classification cross-validation

Als «classification» getaggte Fragen