Ich habe einige Fragen zu den in Abschnitt 9.2 verwendeten Notationen. Mangelnde inhärente Überlegenheit eines Klassifikators in der Duda, Hart und Stork's Pattern Classification . Lassen Sie mich zuerst einen relevanten Text aus dem Buch zitieren:
- Der Einfachheit halber sei ein Problem mit zwei Kategorien betrachtet, bei dem der Trainingssatz aus Mustern und zugeordneten Kategoriebeschriftungen für erzeugt durch die zu lernende unbekannte Zielfunktion , wobei .
- Es sei die (diskrete) Menge von Hypothesen oder mögliche Mengen von zu lernenden Parametern. Eine bestimmte Hypothese könnte durch quantisierte Gewichte in einem neuronalen Netzwerk oder Parameter 0 in einem Funktionsmodell oder Mengen von Entscheidungen in einem Baum usw. beschrieben werden.
- Weiterhin ist die vorherige Wahrscheinlichkeit, dass der Algorithmus nach dem Training die Hypothese ; Beachten Sie, dass dies nicht die Wahrscheinlichkeit ist, dass korrekt ist.
- Als nächstes bezeichnet die Wahrscheinlichkeit, dass der Algorithmus die Hypothese liefert, wenn er auf die Daten trainiert . In deterministischen Lernalgorithmen wie dem nächsten Nachbarn und Entscheidungsbäumen ist überall Null, mit Ausnahme einer einzelnen Hypothese . Für stochastische Methoden (wie neuronale Netze, die aus zufälligen Anfangsgewichten trainiert wurden) oder für stochastisches Boltzmann-Lernen kann eine breite Verteilung sein.
- Sei der Fehler für eine Null-Eins-Funktion oder eine andere Verlustfunktion.
Der erwartete Klassifizierungsfehler außerhalb des Trainingssatzes, wenn die wahre Funktion und die Wahrscheinlichkeit für den ten Kandidaten-Lernalgorithmus ist, ist durch
Satz 9.1. (Kein freies Mittagessen) Für zwei beliebige Lernalgorithmen und gilt unabhängig von der Stichprobenverteilung und der Anzahl der Trainingspunkte Folgendes :
Einheitlich gemittelt über alle Zielfunktionen ,
Für jeden festen Trainingssatz , der gleichmäßig über gemittelt wird , gilt
Teil 1 ist eigentlich sagen
Teil 2 sagt eigentlich
Meine Fragen sind
- In der Formel von , das heißt E k ( E | F , n ) = Σ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , kann ich P ersetzenmit P k ( h | D ) und außerhalb der Summe bewegen Σ x ∉ D , weil es wirklich eine Verteilung ist h über H gegeben D für die k - ten stochastischen Lernalgorithmus?
- Da der te Kandidaten-Lernalgorithmus eine stochastische Methode ist, warum in der Formel von E k , gibt es keine Summe über h , dh Σ h ∈ H ?
Wie geht es und E i ( E | F , n ) voneinander?
Bedeutet die Fehlerrate außerhalb des Trainings bei einem Trainingssatz D ?
Bedeutet die durchschnittliche Fehlerrate außerhalb des Trainings über alle Trainingssätze bei einer Trainingsgröße n ? Wenn ja, warum setzt Teil 1 des NFL-Theorems E i ( E | F , n ) erneut über Trainingsmengen, indem er by schreibt ? , und warum in der Formel für E k ( E | F , n ) , gibt es keine Mittel über alle Trainingssätze haben eine Trainingsgröße n ?
- in Teil 1 des NFL-Theorems das Summieren aller Trainingssätze mit einer festen Trainingsgröße n ?
- Wenn man alle möglichen Werte in der Trainingsgröße n in Teil 1 weiter summiert , ist das Ergebnis immer noch 0, oder?
- In der Formel von , ändern , wenn ich zu Σ x , dh x ist nicht notwendigerweise beschränkt außerhalb des Trainingssatzes sein, werden beiden Teile in NFL Satz noch wahr sein?
- Wenn die wahre Beziehung zwischen und y nicht als deterministische Funktion F wie y = F ( x ) angenommen wird , sondern als bedingte Verteilung P ( y | x ) oder als gleichwertige gemeinsame Verteilung P ( x , y ) zu wissen , P ( y | x ) und P ( x ) (siehe auch meine andere Frage ), dann kann ich ändern
E k ( zu E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (mit das seltsame P k ( h ( x ) | Dauf die in Teil 1 und 2 hingewiesen wurde. Stimmen die beiden Teile des NFL-Theorems noch?
Danke und Grüße!