Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.



4
Cohens Kappa in einfachem Englisch
Ich lese gerade ein Data-Mining-Buch, in dem die Kappa-Statistik als Mittel zur Bewertung der Prognoseleistung von Klassifikatoren erwähnt wurde. Das kann ich aber einfach nicht verstehen. Ich habe auch Wikipedia überprüft, aber es hat auch nicht geholfen: https://en.wikipedia.org/wiki/Cohen's_kappa . Wie hilft Cohens Kappa bei der Bewertung der Vorhersageleistung von Klassifikatoren? …

5
Wie funktioniert eine Support Vector Machine (SVM)?
Wie funktioniert eine Support Vector Machine (SVM) und was unterscheidet sie von anderen linearen Klassifikatoren wie dem linearen Perceptron , der linearen Diskriminanzanalyse oder der logistischen Regression ? * (* Ich denke über die zugrunde liegenden Motivationen für den Algorithmus, Optimierungsstrategien, Generalisierungsfähigkeiten und Laufzeitkomplexität nach. )

7
Warum ist Genauigkeit nicht das beste Maß für die Beurteilung von Klassifizierungsmodellen?
Dies ist eine allgemeine Frage, die hier indirekt mehrmals gestellt wurde, aber es fehlt eine einzige maßgebliche Antwort. Es wäre großartig, eine ausführliche Antwort auf diese Frage als Referenz zu haben. Die Genauigkeit , der Anteil der korrekten Klassifizierungen an allen Klassifizierungen, ist sehr einfach und sehr "intuitiv" zu messen, …

3
Wie berechnen Sie die Genauigkeit und den Rückruf für die Klassifizierung mehrerer Klassen mithilfe der Verwirrungsmatrix?
Ich frage mich, wie man die Präzision berechnet und eine Verwirrungsmatrix für ein Klassifizierungsproblem mit mehreren Klassen verwendet. Insbesondere kann eine Beobachtung nur ihrer wahrscheinlichsten Klasse / Kennzeichnung zugeordnet werden. Ich würde gerne berechnen: Präzision = TP / (TP + FP) Rückruf = TP / (TP + FN) für jede …

5
So berechnen Sie die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand
Ich bin daran interessiert, die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand für ein binäres logistisches Regressionsmodell zu berechnen. Zum Beispiel habe ich im Validierungsdatensatz den wahren Wert für die abhängige Variable, Aufbewahrung (1 = beibehalten; 0 = nicht beibehalten), sowie einen vorhergesagten Aufbewahrungsstatus für jede Beobachtung, …

3
Wie kann eine hübsche grafische Darstellung der Ergebnisse der k-means Clusteranalyse erstellt werden?
Ich benutze R, um K-bedeutet Clustering zu machen. Ich verwende 14 Variablen, um K-means auszuführen Was ist ein hübscher Weg, um die Ergebnisse von K-means zu zeichnen? Gibt es bereits Implementierungen? Erschweren 14 Variablen das Zeichnen der Ergebnisse? Ich habe etwas namens GGcluster gefunden, das cool aussieht, sich aber noch …

1
Helfen Sie mir, Support Vector Machines zu verstehen
Ich verstehe die Grundlagen des Ziels von Support Vector Machines in Bezug auf die Klassifizierung einer Eingabe in mehrere verschiedene Klassen, aber was ich nicht verstehe, sind einige der wichtigsten Details. Für den Anfang bin ich ein bisschen durch die Verwendung von Slack-Variablen verwirrt. Was ist ihr Zweck? Ich mache …

6
Featureauswahl für "endgültiges" Modell bei der Durchführung einer Gegenprüfung beim maschinellen Lernen
Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …


3
Der beste Weg, eine zufällige Gesamtstruktur in einer Publikation darzustellen?
Ich verwende den Random Forest-Algorithmus als robusten Klassifikator für zwei Gruppen in einer Microarray-Studie mit Tausenden von Features. Was ist der beste Weg, um die zufällige Gesamtstruktur so darzustellen, dass genügend Informationen vorhanden sind, um sie in einem Papier reproduzierbar zu machen? Gibt es eine Plotmethode in R, um den …





8
Wie kann ich sicherstellen, dass keine Testdaten in die Trainingsdaten gelangen?
Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …


5
Wann sind unausgeglichene Daten beim maschinellen Lernen wirklich ein Problem?
Wir hatten bereits mehrere Fragen zu unausgeglichenen Daten bei der Verwendung von logistischer Regression , SVM , Entscheidungsbäumen , Absacken und einer Reihe anderer ähnlicher Fragen, was es zu einem sehr beliebten Thema macht! Leider scheint jede der Fragen algorithmenspezifisch zu sein, und ich habe keine allgemeinen Richtlinien für den …



4
Warum nicht durch Regression an die Klassifikation herangehen?
Einige Materialien, die ich beim maschinellen Lernen gesehen habe, sagten, es sei eine schlechte Idee, ein Klassifizierungsproblem durch Regression anzugehen. Aber ich denke, es ist immer möglich, eine kontinuierliche Regression durchzuführen, um die Daten anzupassen und die kontinuierliche Vorhersage abzuschneiden, um diskrete Klassifizierungen zu erhalten. Warum ist es eine schlechte …


3
Warum ist die logistische Regression ein linearer Klassifikator?
Wie kann die logistische Regression als linearer Klassifikator betrachtet werden, da wir die logistische Funktion verwenden, um eine lineare Kombination der Eingabe in eine nicht lineare Ausgabe umzuwandeln? Lineare Regression ist wie ein neuronales Netzwerk ohne verborgene Schicht. Warum werden neuronale Netzwerke als nichtlineare Klassifikatoren betrachtet und logistische Regression ist …


2
Zufällige Waldannahmen
Ich bin ein bisschen neu in zufälligen Wäldern, also habe ich immer noch Probleme mit einigen grundlegenden Konzepten. In der linearen Regression nehmen wir unabhängige Beobachtungen, konstante Varianz ... an. Was sind die Grundannahmen / Hypothesen, die wir machen, wenn wir zufällige Gesamtstrukturen verwenden? Was sind die Hauptunterschiede zwischen zufälligen …

6
Funktionen zur Zeitreihenklassifizierung
Ich betrachte das Problem der (Mehrklassen-) Klassifikation basierend auf Zeitreihen variabler Länge , das heißt, eine Funktion über eine globale Darstellung der Zeitreihe durch einen Satz ausgewählter Merkmale fester Größe unabhängig von , und verwenden Sie dann Standardklassifizierungsmethoden für diesen Feature-Set. Ich bin nicht an Prognosen interessiert, dh an der …


6
Warum Downsampling?
Angenommen, ich möchte einen Klassifikator lernen, der vorhersagt, ob es sich bei einer E-Mail um Spam handelt. Angenommen, nur 1% der E-Mails sind Spam. Am einfachsten ist es, den einfachen Klassifikator zu erlernen, der besagt, dass es sich bei keiner der E-Mails um Spam handelt. Dieser Klassifikator würde eine Genauigkeit …

9
Wie werden F-Messwerte interpretiert?
Ich würde gerne wissen, wie man einen Unterschied von f-Messwerten interpretiert. Ich weiß, dass das f-Maß ein ausgewogenes Mittel zwischen Präzision und Erinnerung ist, aber ich frage nach der praktischen Bedeutung eines Unterschieds bei den f-Maßen. Wenn beispielsweise ein Klassifikator C1 eine Genauigkeit von 0,4 und ein anderer Klassifikator C2 …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.