Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

1
Vorteile der geschichteten vs zufälligen Stichprobe für die Erzeugung von Trainingsdaten in der Klassifizierung
Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird. Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe? Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden …

1
Wie LDA, eine Klassifikationstechnik, auch als Dimensionsreduktionstechnik wie PCA dient
In diesem Artikel verknüpft der Autor die lineare Diskriminanzanalyse (LDA) mit der Hauptkomponentenanalyse (PCA). Mit meinen begrenzten Kenntnissen kann ich nicht nachvollziehen, wie LDA PCA ähneln kann. Ich habe immer gedacht, dass LDA eine Art Klassifizierungsalgorithmus ist, ähnlich der logistischen Regression. Ich würde mich über eine Hilfe freuen, um zu …

2
Zufälliger Wald ist überpassend?
Ich experimentiere mit Scikit-Learn in zufälligen Wäldern und erhalte großartige Ergebnisse mit meinem Trainingssatz, aber relativ schlechte Ergebnisse mit meinem Testsatz ... Hier ist das Problem (inspiriert vom Poker), das ich zu lösen versuche: Mit den Hole Cards von Spieler A, den Hole Cards von Spieler B und einem Flop …

3
Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung
Letzte Bearbeitung mit allen Ressourcen aktualisiert: Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an. Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten. Tore: Wenden Sie eine halbüberwachte Klassifizierung an Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen). Ich habe viele Informationen aus …



5
Textklassifizierung in großem Maßstab
Ich möchte meine Textdaten klassifizieren. Ich habe 300 classes200 Schulungsunterlagen pro Klasse (so 60000 documents in total) und dies wird wahrscheinlich zu sehr hohen Maßangaben führen (wir suchen möglicherweise nach mehr als 1 Million Dimensionen ). Ich möchte die folgenden Schritte in der Pipeline ausführen (um Ihnen einen Eindruck von …

10
Soziale Netzwerk-Datensätze
Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich suche nach Social Network-Datensätzen (Twitter, Friendfeed, Facebook, LastFM usw.) für Klassifizierungsaufgaben, vorzugsweise im arff-Format. Meine Suche über UCI und Google …

3
Ist das Erstellen eines Klassifikators für mehrere Klassen besser als das Erstellen mehrerer binärer Klassifikatoren?
Ich muss URLs in Kategorien einteilen. Angenommen, ich habe 15 Kategorien, für die ich vorhabe, jede URL auf null zu setzen. Ist ein 15-Wege-Klassifikator besser? Wobei ich 15 Labels habe und Features für jeden Datenpunkt generiere. Oder bauen Sie 15 binäre Klassifizierer auf, sagen Sie: Film oder Nicht-Film, und verwenden …

2
Testen der Klassifizierung von überabgetasteten Ungleichgewichtsdaten
Ich arbeite an stark unausgeglichenen Daten. In der Literatur werden verschiedene Methoden verwendet, um die Daten durch erneutes Abtasten (Über- oder Unterabtasten) neu abzugleichen. Zwei gute Ansätze sind: SMOTE: Synthetic Minority-Überabtastung ( SMOTE ) ADASYN: Adaptiver Ansatz zur synthetischen Probenahme für unausgewogenes Lernen ( ADASYN ) Ich habe ADASYN implementiert, …

1
Quiz: Teilen Sie dem Klassifikator die Entscheidungsgrenze mit
Gegeben sind die 6 Entscheidungsgrenzen unten. Entscheidungsgrenzen sind violette Linien. Punkte und Kreuze sind zwei verschiedene Datensätze. Wir müssen uns entscheiden, welches ein ist: Lineare SVM Kernelized SVM (Polynomkern der Ordnung 2) Perceptron Logistische Regression Neuronales Netzwerk (1 versteckte Schicht mit 10 gleichgerichteten Lineareinheiten) Neuronales Netzwerk (1 versteckte Schicht mit …

3
Wann sollte ich keinen Ensemble-Klassifikator verwenden?
Wann sollte ich bei einem Klassifizierungsproblem, bei dem das Ziel darin besteht, die Zugehörigkeit zu einer außerhalb der Stichprobe liegenden Klasse genau vorherzusagen, im Allgemeinen keinen Ensemble-Klassifizierer verwenden? Diese Frage steht in engem Zusammenhang mit Warum nicht immer Ensemble-Lernen? . Diese Frage fragt, warum wir nicht die ganze Zeit Ensembles …

1
Wann schneidet Naive Bayes besser ab als SVM?
In einem kleinen Textklassifizierungsproblem, das ich mir angesehen habe, hat Naive Bayes eine Leistung gezeigt, die einer SVM ähnelt oder größer ist, und ich war sehr verwirrt. Ich habe mich gefragt, welche Faktoren den Triumph eines Algorithmus über den anderen entscheiden. Gibt es Situationen, in denen es keinen Sinn macht, …

1
Ich möchte einen Kriminalitätsindex und einen politischen Instabilitätsindex aufbauen, die auf Nachrichten basieren
Ich habe dieses Nebenprojekt, bei dem ich die lokalen Nachrichten-Websites in meinem Land crawle und einen Kriminalitätsindex und einen Index für politische Instabilität erstellen möchte. Ich habe bereits den Informationsabrufteil des Projekts behandelt. Mein Plan ist zu tun: Unbeaufsichtigte Themenextraktion. Nahezu doppelte Erkennung. Beaufsichtigte Einstufung und Ereignisstufe (Kriminalität / politisch …

3
Der Vergleich von zwei Klassifikatorgenauigkeitsergebnissen für die statistische Signifikanz mit dem t-Test
Ich möchte die Genauigkeit von zwei Klassifikatoren für die statistische Signifikanz vergleichen. Beide Klassifikatoren werden mit demselben Datensatz ausgeführt. Dies lässt mich glauben, dass ich einen T-Test mit einer Stichprobe von dem verwenden sollte, was ich gelesen habe . Beispielsweise: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.