Als «classification» getaggte Fragen

Eine Instanz des überwachten Lernens, die die Kategorie oder Kategorien identifiziert, zu denen eine neue Instanz des Datensatzes gehört.



1
Einzelne E-Mails aus einem E-Mail-Thread extrahieren
Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen. Betrachten Sie zum Beispiel die folgende Meldung. Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. …

1
CNN zur Phonemerkennung
Ich studiere derzeit dieses Papier , in dem CNN für die Phonemerkennung unter Verwendung der visuellen Darstellung von Log-Mel-Filterbänken und eines begrenzten Gewichtsverteilungsschemas angewendet wird. Die Visualisierung von Log-Mel-Filterbänken ist eine Möglichkeit, die Daten darzustellen und zu normalisieren. Sie schlagen vor, als Spektogramm mit RGB-Farben zu visualisieren. Das Beste, was …

1
So generieren Sie Trainingsdaten für OCR
Ich versuche, ein optisches Zeichenerkennungssystem zum Erkennen des Kennzeichens (indonesisches Kennzeichen) aufzubauen. Leider ist kein Trainingssatz verfügbar, aber ich habe die Schriftart gefunden. Ich versuche, die Trainingsdaten zu generieren, indem ich das Bild des Kennzeichens mit Kerneln zusammenfalte (etwas wie Gaußsche Unschärfe, Box-Unschärfe) mit Python, aber es ähnelt nicht echten …

2
Warum werden Präzision und Rückruf in der F1-Bewertung anstelle von Präzision und Kapitalwert verwendet?
Bei binären Klassifizierungsproblemen scheint der F1-Score häufig als Leistungsmaß verwendet zu werden. Soweit ich verstanden habe, besteht die Idee darin, den besten Kompromiss zwischen Präzision und Rückruf zu finden. Die Formel für die F1-Punktzahl ist in Präzision und Rückruf symmetrisch. Es gibt jedoch (und das stört mich) eine Asymmetrie zwischen …

2
SPARK Mllib: Logistische Regression für mehrere Klassen, wie erhält man die Wahrscheinlichkeiten aller Klassen und nicht die oberste?
Ich benutze LogisticRegressionWithLBFGS, um einen Klassifikator für mehrere Klassen zu trainieren. Gibt es eine Möglichkeit, die Wahrscheinlichkeit aller Klassen (nicht nur der Spitzenkandidatenklasse) zu ermitteln, wenn ich das Modell an neuen unsichtbaren Stichproben teste? PS Ich bin nicht unbedingt verpflichtet, den LBFGS-Klassifikator zu verwenden, möchte aber die logistische Regression in …




2
Unterschied zwischen Trainings- und Testdatenverteilung
Eine Grundannahme beim maschinellen Lernen ist, dass Trainings- und Testdaten aus derselben Population stammen und somit derselben Verteilung folgen. In der Praxis ist dies jedoch höchst unwahrscheinlich. Covariate Shift behebt dieses Problem. Kann jemand die folgenden Zweifel daran klären? Wie prüft man, ob zwei Verteilungen statistisch unterschiedlich sind? Kann die …


1
Wie extrahiere ich Funktionen und klassifiziere Warn-E-Mails, die von Überwachungstools stammen, in die richtige Kategorie?
Mein Unternehmen bietet vielen seiner Kunden Managed Services an. Unsere Kunden verwenden normalerweise die folgenden Überwachungstools, um ihre Server / Webanwendungen zu überwachen: OpsView Nagios Pingdom Benutzerdefinierte Shell-Skripte Immer wenn ein Problem gefunden wird, geht eine Benachrichtigungsmail an unser Ops-Team, damit es das Problem beheben kann. Da wir Tausende von …

1
Wie geht der naive Bayes-Klassifikator mit fehlenden Daten im Training um?
Naive Bayes geht offenbar unterschiedlich mit fehlenden Daten um, je nachdem, ob sie in Trainings- oder Test- / Klassifizierungsinstanzen vorhanden sind. Bei der Klassifizierung von Instanzen wird das Attribut mit dem fehlenden Wert einfach nicht in die Wahrscheinlichkeitsberechnung einbezogen ( http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf ). Im Training "ist die Instanz [mit den fehlenden …

6
Welcher Kreuzvalidierungstyp eignet sich am besten für das Problem der binären Klassifizierung?
Datensatz sieht aus wie: 25000 Beobachtungen Bis zu 15 Prädiktoren verschiedener Typen: numerisch, kategorial für mehrere Klassen, binär Zielvariable ist binär Welche Kreuzvalidierungsmethode ist typisch für diese Art von Problemen? Standardmäßig verwende ich K-Fold. Wie viele Falten reichen in diesem Fall aus? (Eines der Modelle, die ich benutze, ist zufällige …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.