Überwachtes Lernen mit unsicheren Daten?

11

Gibt es eine Methode zur Anwendung eines überwachten Lernmodells auf einen unsicheren Datensatz? Angenommen, wir haben einen Datensatz mit den Klassen A und B:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

Wie können wir ein maschinelles Lernmodell darauf trainieren? Vielen Dank.

machine-learning supervised-learning

— hyperdo
quelle

11

Als numerische Qualität, die Sie Ihren Daten zuschreiben, denke ich, dass diese "Gewissheit" sicherlich als Gewicht verwendet werden könnte. Höhere "Sicherheits" -Werte erhöhen das Gewicht, das ein Datum auf die Entscheidungsfunktion hat, was Sinn macht.

Viele überwachte Lernalgorithmen unterstützen Gewichte, sodass Sie nur eine gewichtete Version derjenigen finden müssen, die Sie verwenden möchten.

— Firebug
quelle

2

(+1) Und da die Gewichte im Wesentlichen dazu neigen, als "Replikate" von Punkten zu fungieren, könnte wahrscheinlich jeder Algorithmus auf diese Weise in eine gewichtete Version umgewandelt werden, z. B. im OP-Beispiel, indem [5,8,10] Kopien von übergeben werden die 3 Punkte spiegeln ihre Gewissheiten von [50,80,100]% wider. (Dies sollte niemals wirklich benötigt werden, als ob es im Prinzip möglich wäre, es sollte eine entsprechende gewichtete Version des Algorithmus geben.)

— GeoMatt22

5

$1$ $A$ $0$ $B$ $0.6$ $A$ $A$ $B$ $0$ $1$

$\log \frac{p(A|x)}{p(B|x)} = \log \frac{p(A|x)}{1-P(A|x)}$ $\beta_0 + \beta_1^T x$ $p(A|x)$ $A$ $\beta_0 + \beta_1^T x >0$ $B$

— Batman
quelle

Wenn Sie also ein Klassifizierungsproblem für mehrere Klassen hatten, könnten Sie Ihre Ziele als Vektoren mit einer Länge festlegen, die der Anzahl der Klassen entspricht?

— Hyperdo

Anzahl der Klassen -1 unter der Annahme, dass sich die Gewissheiten zu 100% summieren; Das Beispiel ähnelt der logistischen Regression. Viele Klassifikatoren erzeugen Scores (z. B. Schätzungen des p (class | data) unter einem bestimmten Modell). Diese Antwort schlägt lediglich vor, dass die Gewissheiten nicht direkt vorhergesagt, sondern als Punktzahlen betrachtet und stattdessen vorhergesagt werden. Dann machen Sie etwas mit den Partituren.

— Batman