Warum ist der Bayes-Klassifikator der ideale Klassifikator?

11

Es wird als idealer Fall angesehen, in dem die den Kategorien zugrunde liegende Wahrscheinlichkeitsstruktur perfekt bekannt ist.

Warum erzielen wir mit dem Bayes-Klassifikator die beste Leistung, die erzielt werden kann?

Was ist der formale Beweis / die Erklärung dafür? Da wir immer den Bayes-Klassifikator als Benchmark verwenden, um die Leistung aller anderen Klassifikatoren zu vergleichen.

— Vatsal
quelle

9

Warum erzielen wir mit dem Bayes-Klassifikator die beste Leistung, die erzielt werden kann? Was ist der formale Beweis / die Erklärung dafür?

Normalerweise besteht ein Datensatz $D$ aus $n$ iid Stichproben $x_i$ einer Verteilung, die Ihre Daten generiert. Dann bauen Sie ein Vorhersagemodell aus den gegebenen Daten: Bei einer Probe $x_i$ , die Klasse vorhersagen , während die wirkliche Klasse der Probe ist . $\hat{f}(x_i)$ $f(x_i)$

Doch in der Theorie könnten Sie sich entscheiden , nicht ein bestimmtes Modell wählen , sondern betrachten alle möglichen Modelle auf einmal und sie irgendwie miteinander kombinieren großen Modell . $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Angesichts der Daten können viele der kleineren Modelle natürlich sehr unwahrscheinlich oder unangemessen sein (z. B. Modelle, die nur einen Wert des Ziels vorhersagen, obwohl Ihr Datensatz $D$ mehrere Werte des Ziels enthält ).

In jedem Fall möchten Sie den Zielwert neuer Stichproben vorhersagen, die aus derselben Verteilung wie $x_i$ s stammen. Ein gutes Maß $e$ von der Leistung des Modells wäre

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$ dh die Wahrscheinlichkeit , dass Sie den wahren Zielwert für ein zufällig abgetastet vorhersagen

X

$X$ .

Mit der Bayes-Formel können Sie berechnen, wie hoch die Wahrscheinlichkeit ist, dass eine neue Stichprobe $x$ angesichts der Daten Zielwert $v$ hat : $D$

P (v ∣ D) = \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Das sollte man betonen

üblicherweise $P(v\mid \hat{f})$ ist entweder $0$ oder $1$ , da eine deterministische Funktion ist , $\hat{f}$ $x$
nicht in der Regel, aber fast die ganze Zeit, es unmöglich ist , zu schätzen , $P(\hat{f}\mid D)$ ( mit Ausnahme der oben genannten trivialen Fälle),
nicht in der Regel, aber fast die ganze Zeit, die Anzahl der möglichen Modelle ist zu groß, für die obere Summe ausgewertet werden. $\hat{f}$

Daher ist es in den meisten Fällen sehr schwierig, $P(v\mid D)$ zu erhalten / abzuschätzen .

Nun fahren wir mit dem Optimal Bayes-Klassifikator fort. Für eine gegebene $x$ , prognostiziert er den Wert Da dies der wahrscheinlichste Wert unter allen möglichen Zielwerte maximiert die optimale Bayes - Klassifikator die Leistungsmessung .

\hat{v} = {argmax}_{v} \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Da wir immer den Bayes-Klassifikator als Benchmark verwenden, um die Leistung aller anderen Klassifikatoren zu vergleichen.

Wahrscheinlich verwenden Sie die naive Version des Bayes-Klassifikators. Es ist einfach zu implementieren, funktioniert die meiste Zeit recht gut, berechnet jedoch nur eine naive Schätzung von $P(v\mid D)$ .

— Antoine
quelle

Ist der Bayes-Klassifikator (nicht naive Bayes) der gleiche wie der optimale Bayes-Klassifikator? und ist

die vorherige Wahrscheinlichkeit?

P (v | f)

$P(v|f)$

— RuiQi

@RuiQi Ich glaube nicht, dass es so etwas wie den Bayes-Klassifikator gibt. Mir ist der naive Bayes-Klassifikator und der optimale Bayes-Klassifikator bekannt.

— Antoine

@RuiQi

ist die Wahrscheinlichkeit , dass eine Probe klassifiziert werden in die Klasse fallen

, wenn wir prädiktive Modell verwenden

. Ich denke, Sie können es vorherige Wahrscheinlichkeit nennen.

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

— Antoine

0

$C_T$ $C_P$

Sie können diese Wahrscheinlichkeit als Integral über alle möglichen Situationen des Merkmalsvektors ausdrücken $X$ $X$ $x$

P (C_{T} = C_{P}) = \int_{all possible X} f (x) P (C_{T} = C_{P} | x) d x

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

$f(x)$ $X$

$x$

$x$ (the term $P(C_T=C_P|x)$ is maximum), thus can not be improved upon, at least not based on the features $x$ .

— Sextus Empiricus
quelle