Kann der mittlere quadratische Fehler zur Klassifizierung verwendet werden?

13

Ich kenne die mittlere quadratische Fehlerformel und weiß, wie man sie berechnet. Wenn wir über eine Regression sprechen, können wir den mittleren quadratischen Fehler berechnen. Können wir jedoch über eine MSE für ein Klassifizierungsproblem sprechen und wie man es berechnet?

classification error

— Kamaci
quelle

12

Viele Klassifikatoren können kontinuierliche Ergebnisse vorhersagen. Kontinuierliche Bewertungen sind häufig Zwischenergebnisse, die nur als allerletzter Schritt der Klassifizierung in Klassenbezeichnungen (normalerweise nach Schwellenwert) konvertiert werden. In anderen Fällen können zB hintere Wahrscheinlichkeiten für die Klassenzugehörigkeit berechnet werden (zB Diskriminanzanalyse, logistische Regression). Sie können die MSE anhand dieser fortlaufenden Bewertungen und nicht anhand der Klassenbezeichnungen berechnen. Dies hat den Vorteil, dass Sie den Informationsverlust durch die Dichotomisierung vermeiden.
Wenn die kontinuierliche Bewertung eine Wahrscheinlichkeit ist, wird die MSE-Metrik als Brier-Bewertung bezeichnet.

Es gibt jedoch auch Klassifizierungsprobleme, bei denen es sich eher um Regressionsprobleme handelt. In meinem Bereich könnte dies beispielsweise die Klassifizierung von Fällen danach sein, ob die Konzentration eines Stoffes eine gesetzliche Grenze überschreitet oder nicht (was ein binäres / diskriminierendes Zwei-Klassen-Problem ist). Hier ist MSE aufgrund der zugrunde liegenden Regressionscharakteristik der Aufgabe eine natürliche Wahl.

In diesem Artikel erklären wir es als Teil eines allgemeineren Rahmens: C. Beleites, R. Salzer und V. Sergo:
Validierung von Modellen zur weichen Klassifizierung unter Verwendung von Teilklassenmitgliedschaften: Ein erweitertes Konzept von Sensitivity & Co., das auf die Einstufung von Astrozytomgeweben angewendet wird
Chemom. Intell. Labor. Syst., 122 (2013), 12-22.

So berechnen Sie es: Wenn Sie in R arbeiten, befindet sich eine Implementierung im Paket "softclassval", http: /softclassval.r-forge.r-project.org.

— cbeleites unzufrieden mit SX
quelle

@ Seanv507: Vielen Dank!

— cbeleites unzufrieden mit SX

1

Ich verstehe nicht ganz, wie ... eine erfolgreiche Klassifizierung eine binäre Variable ist (richtig oder nicht), daher ist es schwierig zu erkennen, was Sie quadrieren würden.

Im Allgemeinen werden Klassifizierungen anhand von Indikatoren wie dem korrekten Prozentsatz gemessen, wenn eine Klassifizierung, die aus einem Trainingssatz geschätzt wurde, auf einen Testsatz angewendet wird, der zuvor beiseite gelegt wurde.

Der mittlere quadratische Fehler kann (und wird) sicherlich für Vorhersagen oder vorhergesagte Werte kontinuierlicher Variablen berechnet werden, aber ich denke nicht für Klassifikationen.

— Peter Ellis
quelle

0

$\hat{\pi}$

$L=\prod_i \hat{\pi}_i^{y_i} (1-\hat{\pi}_i)^{1-y_i}$

Diese Wahrscheinlichkeit gilt für eine binäre Antwort, bei der eine Bernoulli-Verteilung angenommen wird.

$L$

— user0
quelle

0

Technisch können Sie, aber die MSE-Funktion ist für die binäre Klassifizierung nicht konvex. Wenn also ein binäres Klassifizierungsmodell mit der MSE-Kostenfunktion trainiert wird, kann nicht garantiert werden, dass die Kostenfunktion minimiert wird . Die Verwendung von MSE als Kostenfunktion setzt auch die Gaußsche Verteilung voraus, was bei der binären Klassifizierung nicht der Fall ist.

— Mostafa Nakhaei
quelle

1

Warum sollte MSE die Gaußsche Verteilung annehmen? (Im Gegensatz zu beispielsweise Least - Squares - Regression MSE als Verlust verwendet, und man kann zeigen , dass es optimal ist , für die Regressionsprobleme mit normalverteilten Residuen)

— cbeleites unzufrieden mit SX

Es ist nicht optimal für die binäre Klassifizierung, sondern optimal für die Regression. Die Frage war für binär.

— Mostafa Nakhaei

Die Frage sagt keine binäre Klassifikation. Es heißt nicht einmal diskriminierende Klassifizierung. Und es geht nicht um die Optimalität (für die Sie die Situation noch genauer bestimmen müssten, als mit 2 Klassen binär oder diskriminierend zu sagen), sondern nur darum, ob MSE verwendet werden kann. Außerdem ist Briers Punktzahl eine streng korrekte Bewertungsregel für die Vorhersage, sodass eine detailliertere Erklärung der Nichtoptimalität sicherlich hilfreich wäre (und möglicherweise sehr aufschlussreich ist, wann diese Nichtoptimalität zutrifft).

— cbeleites unzufrieden mit SX