Es wurde kein Satz über freies Mittagessen in der Pattern Classification von Duda et al

Ich habe einige Fragen zu den in Abschnitt 9.2 verwendeten Notationen. Mangelnde inhärente Überlegenheit eines Klassifikators in der Duda, Hart und Stork's Pattern Classification . Lassen Sie mich zuerst einen relevanten Text aus dem Buch zitieren:

Der Einfachheit halber sei ein Problem mit zwei Kategorien betrachtet, bei dem der Trainingssatz $D$ aus Mustern $x^i$ und zugeordneten Kategoriebeschriftungen $y_i = ± 1$ für $i = 1,..., n$ erzeugt durch die zu lernende unbekannte Zielfunktion $F(x)$ , wobei $y_i = F(x^i)$ .

Es sei $H$ die (diskrete) Menge von Hypothesen oder mögliche Mengen von zu lernenden Parametern. Eine bestimmte Hypothese $h(x) \in H$ könnte durch quantisierte Gewichte in einem neuronalen Netzwerk oder Parameter 0 in einem Funktionsmodell oder Mengen von Entscheidungen in einem Baum usw. beschrieben werden.

Weiterhin ist $P(h)$ die vorherige Wahrscheinlichkeit, dass der Algorithmus nach dem Training die Hypothese $h$ ; Beachten Sie, dass dies nicht die Wahrscheinlichkeit ist, dass $h$ korrekt ist.

Als nächstes bezeichnet $P(h|D)$ die Wahrscheinlichkeit, dass der Algorithmus die Hypothese liefert, $h$ wenn er auf die Daten trainiert $D$ . In deterministischen Lernalgorithmen wie dem nächsten Nachbarn und Entscheidungsbäumen ist $P(h|D)$ überall Null, mit Ausnahme einer einzelnen Hypothese $h$ . Für stochastische Methoden (wie neuronale Netze, die aus zufälligen Anfangsgewichten trainiert wurden) oder für stochastisches Boltzmann-Lernen kann $P(h|D)$ eine breite Verteilung sein.

Sei $E$ der Fehler für eine Null-Eins-Funktion oder eine andere Verlustfunktion.

Der erwartete Klassifizierungsfehler außerhalb des Trainingssatzes, wenn die wahre Funktion $F(x)$ und die Wahrscheinlichkeit für den $k$ ten Kandidaten-Lernalgorithmus $P_k(h(x)|D)$ ist, ist durch
$E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$
Satz 9.1. (Kein freies Mittagessen) Für zwei beliebige Lernalgorithmen $P_1 (h |D)$ und $P_2(h|D)$ gilt unabhängig von der Stichprobenverteilung $P(x)$ und der Anzahl $n$ der Trainingspunkte Folgendes :

Einheitlich gemittelt über alle Zielfunktionen $F$ , $\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n) = 0$

Für jeden festen Trainingssatz $D$ , der gleichmäßig über gemittelt wird $F$ , gilt $\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D) = 0$

Teil 1 ist eigentlich sagen
$\sum_{F} \sum_{D} P (D | F) [E_{1} (E | F, n) — E_{2} (E | F, n)] = 0$ $\sum_F \sum_D P(D|F) [\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n)] = 0$
Teil 2 sagt eigentlich
$\sum_{F} [E_{1} (E | F, D) — E_{2} (E | F, D)] = 0$ $\sum_F [\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D)] = 0$

Meine Fragen sind

In der Formel von , das heißt kann ich ersetzen $\mathcal{E}_k(E|F,n)$ $E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D),$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D),$ mit und außerhalb der Summe bewegen , weil es wirklich eine Verteilung ist über gegeben für die - ten stochastischen Lernalgorithmus? $P_k(h(x)|D)$ $P_k(h|D)$ $\sum_{x \notin D}$ $h$ $H$ $D$ $k$
Da der te Kandidaten-Lernalgorithmus eine stochastische Methode ist, warum in der Formel von $k$ , gibt es keine Summe über , dh ? $\mathcal{E}_k(E|F,n)$ $h$ $\sum_{h \in H}$
Wie geht es und voneinander? $\mathcal{E}_i (E|F, D)$ $\mathcal{E}_i (E|F, n)$

Bedeutet die Fehlerrate außerhalb des Trainings bei einem Trainingssatz ? $\mathcal{E}_i (E|F, D)$ $D$

Bedeutet die durchschnittliche Fehlerrate außerhalb des Trainings über alle Trainingssätze bei einer Trainingsgröße ? Wenn ja, warum setzt Teil 1 des NFL-Theorems über Trainingsmengen, indem er by schreibt $\mathcal{E}_i (E|F, n)$ $n$ $\mathcal{E}_i (E|F, n)$ , und warum in der Formel für , gibt es keine Mittel über alle Trainingssätze haben eine Trainingsgröße ? $\sum_D$ $\mathcal{E}_k(E|F,n)$ $n$
in Teil 1 des NFL-Theorems das aller Trainingssätze mit einer festen Trainingsgröße ? $\sum_D$ $n$
Wenn man alle möglichen Werte in der Trainingsgröße in Teil 1 weiter summiert , ist das Ergebnis immer noch 0, oder? $\mathbb{N}$ $n$
In der Formel von $\mathcal{E}_k(E|F,n)$ , ändern , wenn ich zu , dh ist nicht notwendigerweise beschränkt außerhalb des Trainingssatzes sein, werden beiden Teile in NFL Satz noch wahr sein? $\sum_{x \notin D}$ $\sum_x$ $x$
Wenn die wahre Beziehung zwischen und nicht als deterministische Funktion wie , sondern als bedingte Verteilung oder als gleichwertige gemeinsame Verteilung zu wissen , und (siehe auch meine andere Frage ), dann kann ich ändern $x$ $y$ $F$ $y=F(x)$ $P(y|x)$ $P(x,y)$ $P(y|x)$ $P(x)$ zu (mit das seltsame $\mathcal{E}_k (E|F,n)$ $E_{k} (E | P (x, y), n) = E_{x, y} [1 - δ (y, h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|P(x,y),n) = \mathcal{E}_{x,y} [1-\delta(y, h(x))] P_k(h(x)|D)$ auf die in Teil 1 und 2 hingewiesen wurde. Stimmen die beiden Teile des NFL-Theorems noch? $P_k(h(x)|D)$

Danke und Grüße!

machine-learning

— Tim
quelle

δ

$\delta$

E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)

$\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$

Ist dieses No-Free-Lunch-Theorem dasselbe wie das Halting-Problem? Sind sie verbunden?

Ich werde die Fragen beantworten, auf die ich die Antworten zu kennen glaube.

$x$ $D$ $h$ $x$
$h$ $x$ $H$ $x$
$\mathcal{E}_i(E|F, D)$ $F$ $D$ . Aber $\mathcal{E}_i(E|F, n)$ Ich denke, das ist anders, weil Sie nur von der Anzahl der Trainingspunkte abhängig sind $n$ und nicht die tatsächliche $x$ Werte. Dies ist jedoch angesichts der nachfolgenden Aussagen verwirrend.
$D$ ist der Satz von Trainingsvektoren. Es gibt $n$ Trainingsvektoren in $D$ . Du summierst also über das Feste $n$ Trainingsvektoren in $D$ . Es gibt nur einen Satz $D$ .
Ich denke die Antwort auf 5 ist nein. Die Notation scheint etwas verwirrend zu sein.

Ich kann zu 6 und 7 keinen Kommentar abgeben.

— Michael R. Chernick
quelle

+1. Willkommen auf der Website, ich bin ein großer Fan Ihrer Bewertungen bei Amazon. Entschuldigen Sie meine Vermutung bei der Bearbeitung. Die mathematische Notation erfolgt meistens, indem Sie $ auf beide Seiten von etwas setzen. Wenn Sie auf den gelben Kreis klicken? Während des Schreibens sehen Sie oben rechts einen Link für "Erweiterte Hilfe", der weitere Informationen enthält. Sie können auch mit der rechten Maustaste auf ein vorhandenes Mathjax klicken (z. B. eines der oben genannten) und "Math anzeigen als -> TeX-Befehle" auswählen, um zu sehen, wie es ausgeführt wurde.

— gung - Wiedereinsetzung von Monica

Mit anderen Worten, @gung sagt: Diese Site unterstützt

L A T E X

$\LaTeX$ in (fast) genau der Weise, wie Sie es erwarten würden, einschließlich Display-Mathematik. Willkommen auf der Seite.

— Kardinal

@Michael Bitte erlauben Sie mir, Sie diesen anderen willkommen zu heißen: Ich freue mich, Sie hier zu sehen. (Michael hat außergewöhnlich sachkundige Beiträge zu Diskussionslisten der American Statistical Association

— geleistet