Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.



2
Bag-of-Words für die Textklassifizierung: Warum nicht einfach Worthäufigkeiten anstelle von TFIDF verwenden?
Ein üblicher Ansatz zur Klassifizierung von Texten besteht darin, einen Klassifikator aus einem Wortsack zu schulen. Der Benutzer nimmt den zu klassifizierenden Text und zählt die Häufigkeit der Wörter in jedem Objekt, gefolgt von einer Art Beschnitt, um die resultierende Matrix in einer überschaubaren Größe zu halten. Oft sehe ich …


3
Cross-Validierung oder Bootstrapping zur Bewertung der Klassifizierungsleistung?
Welche Stichprobenmethode eignet sich am besten, um die Leistung eines Klassifikators für einen bestimmten Datensatz zu bewerten und mit anderen Klassifikatoren zu vergleichen? Kreuzvalidierung scheint Standard zu sein, aber ich habe gelesen, dass Methoden wie .632-Bootstrap eine bessere Wahl sind. Als Follow-up: Hat die Auswahl der Leistungsmetrik Einfluss auf die …

2
Wie groß ist ein Trainingsset?
Gibt es eine gängige Methode, um zu bestimmen, wie viele Trainingsmuster erforderlich sind, um einen Klassifikator (in diesem Fall einen LDA) zu trainieren, um eine Mindestgenauigkeit für die Verallgemeinerung des Schwellenwerts zu erhalten? Ich frage, weil ich die Kalibrierungszeit minimieren möchte, die normalerweise für eine Gehirn-Computer-Schnittstelle erforderlich ist.



2
Wie gehe ich mit dem Unterschied zwischen der Verteilung des Testsatzes und des Trainingssatzes um?
Ich denke, eine Grundannahme des maschinellen Lernens oder der Parameterschätzung ist, dass die unsichtbaren Daten aus derselben Verteilung stammen wie der Trainingssatz. In einigen praktischen Fällen wird sich die Verteilung des Testsatzes jedoch fast von der des Trainingssatzes unterscheiden. Sagen wir für ein umfangreiches Multiklassifizierungsproblem, bei dem versucht wird, Produktbeschreibungen …

3
Visualisierung der Kalibrierung der vorhergesagten Wahrscheinlichkeit eines Modells
Angenommen, ich habe ein Vorhersagemodell, das für jede Klasse eine Wahrscheinlichkeit ergibt. Jetzt erkenne ich, dass es viele Möglichkeiten gibt, ein solches Modell zu bewerten, wenn ich diese Wahrscheinlichkeiten für die Klassifizierung verwenden möchte (Genauigkeit, Erinnerung usw.). Ich erkenne auch, dass eine ROC-Kurve und die Fläche darunter verwendet werden können, …


6
Testgenauigkeit höher als beim Training. Wie zu interpretieren?
Ich habe einen Datensatz mit höchstens 150 Beispielen (aufgeteilt in Training und Test) mit vielen Funktionen (höher als 1000). Ich muss Klassifikatoren und Merkmalsauswahlmethoden vergleichen, die für Daten eine gute Leistung erbringen. Daher verwende ich drei Klassifizierungsmethoden (J48, NB, SVM) und zwei Feature-Auswahlmethoden (CFS, WrapperSubset) mit unterschiedlichen Suchmethoden (Greedy, BestFirst). …

4
Warum verwenden Forscher die 10-fache Kreuzvalidierung, anstatt einen Validierungssatz zu testen?
Ich habe viele Forschungsarbeiten über Stimmungsklassifikation und verwandte Themen gelesen. Die meisten von ihnen verwenden eine 10-fache Kreuzvalidierung, um Klassifikatoren zu trainieren und zu testen. Das bedeutet, dass keine separaten Tests / Validierungen durchgeführt werden. Warum das? Was sind die Vor- und Nachteile dieses Ansatzes, insbesondere für Forscher?

1
Auswahl unter den richtigen Bewertungsregeln
In den meisten Ressourcen zu den Regeln für die richtige Bewertung werden verschiedene Bewertungsregeln wie Protokollverlust, Brier-Punktzahl oder sphärische Bewertung erwähnt. Häufig geben sie jedoch keine Orientierungshilfe zu den Unterschieden zwischen ihnen. (Anlage A: Wikipedia .) Die Auswahl des Modells, das die logarithmische Bewertung maximiert, entspricht der Auswahl des Maximum-Likelihood-Modells, …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.