Was ist der Unterschied zwischen einer Verlustfunktion und einer Entscheidungsfunktion?

23

Ich sehe, dass beide Funktionen Teil von Data Mining-Methoden wie Gradient Boosting Regressors sind. Ich sehe, dass dies auch separate Objekte sind.

Wie ist die Beziehung zwischen beiden im Allgemeinen?

— Hiatus
quelle

45

Eine Entscheidungsfunktion ist eine Funktion, die einen Datensatz als Eingabe nimmt und eine Entscheidung als Ausgabe gibt. Welche Entscheidung getroffen werden kann, hängt vom jeweiligen Problem ab. Beispiele beinhalten:

Schätzprobleme : Die "Entscheidung" ist die Schätzung.
Probleme beim Testen von Hypothesen: Die Entscheidung ist, die Nullhypothese abzulehnen oder nicht abzulehnen.
Klassifizierungsprobleme: Die Entscheidung ist, eine neue Beobachtung (oder Beobachtungen) in eine Kategorie zu klassifizieren.
Modellauswahlprobleme: Die Entscheidung ist, eines der Kandidatenmodelle auszuwählen.

In der Regel stehen für ein Problem unendlich viele Entscheidungsfunktionen zur Verfügung. Wenn wir zum Beispiel daran interessiert sind, die Größe schwedischer Männer auf der Grundlage von zehn Beobachtungen schätzen , können wir eine der folgenden Entscheidungsfunktionen : $\mathbf{x}=(x_1,x_2,\ldots,x_{10})$ $d(\mathbf{x})$

Der Stichprobenmittelwert: . $d(\mathbf{x})=\frac{1}{10}\sum_{i=1}^{10}x_i$
Der Median der Stichprobe: $d(\mathbf{x})=\mbox{median}(\mathbf{x})$
Das geometrische Mittel der Stichprobe: $d(\mathbf{x})=\sqrt[10]{x_1\cdots x_{10}}$
Die Funktion , die unabhängig vom Wert von immer 1: zurückgibt . Blöd, ja, aber es ist trotzdem eine gültige Entscheidungsfunktion. $d(\mathbf{x})=1$ $\mathbf{x}$

Wie können wir dann bestimmen, welche dieser Entscheidungsfunktionen verwendet werden sollen? Eine Möglichkeit ist die Verwendung einer Verlustfunktion , die den Verlust (oder die Kosten) beschreibt, die mit allen möglichen Entscheidungen verbunden sind. Unterschiedliche Entscheidungsfunktionen führen in der Regel zu unterschiedlichen Arten von Fehlern. Die Verlustfunktion sagt uns, um welche Art von Fehlern wir uns mehr Sorgen machen sollten. Die beste Entscheidungsfunktion ist die Funktion, die den niedrigsten erwarteten Verlust ergibt . Was unter dem erwarteten Verlust zu verstehen ist, hängt von der jeweiligen Situation ab (insbesondere davon, ob es sich um eine frequentistische oder eine bayesianische Statistik handelt).

Zusammenfassend:

Entscheidungsfunktionen werden verwendet, um Entscheidungen basierend auf Daten zu treffen.
Verlustfunktionen werden verwendet, um zu bestimmen, welche Entscheidungsfunktion verwendet werden soll.

— MånsT
quelle

Für parametrische Entscheidungsfunktionen (z. B. logistische Regression, Schwellenwertentscheidung) haben Sie grundsätzlich eine mögliche Funktion für jede Parameterkombination, und die Verlustfunktion wird verwendet, um die beste zu finden. Allgemeines Beispiel: Wenn Sie den Parameterraum mit einem Gefälle untersuchen, leiten Sie den Verlust in Bezug auf die Parameter ab und steigen auf ein (lokales) Minimum des Verlusts ab.

— Pixelou

7

Die Verlustfunktion ist das, was minimiert wird, um ein Modell zu erhalten, das in gewissem Sinne optimal ist. Das Modell selbst hat eine Entscheidungsfunktion, die zur Vorhersage verwendet wird.

Zum Beispiel in SVM-Klassifikatoren:

$\mathcal{L}(\mathbf{w}, \xi) =\frac{1}{2}\|\mathbf{w}\|^2 + C\sum_i \xi_i$
$f(\mathbf{x}) = \mathbf{w}^T\mathbf{x} + b$

— Marc Claesen
quelle

Entspricht die Norm nicht der Entfernung oder vermische ich hier etwas ... Die Entscheidungsfunktion ist also immer ein Teil der Verlustfunktion, die ich benutze, um sie mit den tatsächlichen Werten zu "vergleichen", an denen ich ein Modell zu fixieren versuche? Und das Ziel ist es, diesen "Unterschied" zu minimieren?

— Pause

@Hiatus Die Norm der trennenden Hyperebene (die beim Training einer SVM optimiert wird) wird in der Entscheidungsfunktion nicht verwendet. Die Hyperebene selbst wird verwendet. Das Minimieren der Norm während des Trainings ist im Grunde eine Form der Regularisierung.

— Marc Claesen

Es wäre besser, eine allgemeinere Antwort zu geben, die nicht an einen bestimmten Klassifikator gebunden ist.

— smci