Was bedeutet „Baseline“ im Kontext des maschinellen Lernens?

11

Was bedeutet "Baseline" im Kontext von maschinellem Lernen und Datenwissenschaft?

Jemand hat mir geschrieben:

Hinweis: Eine geeignete Basislinie ergibt einen RMSE von ungefähr 200.

Ich verstehe das nicht. Bedeutet er, dass es gut ist, wenn mein Vorhersagemodell für die Trainingsdaten einen RMSE unter 500 aufweist?

Und was könnte ein "Baseline-Ansatz" sein?

— Meiiso
quelle

15

Eine Basislinie ist das Ergebnis eines sehr einfachen Modells / einer sehr einfachen Lösung. Sie erstellen im Allgemeinen eine Basislinie und versuchen dann, komplexere Lösungen zu erstellen, um ein besseres Ergebnis zu erzielen. Wenn Sie eine bessere Punktzahl als die Grundlinie erzielen, ist dies gut.

— Carl Rynegardh
quelle

Nun, aber was bedeutet das genau für meinen Punkt? Für meine zwei Zitate

— Meiiso

2

Da die Basislinie 200 ist, möchten Sie eine bessere Punktzahl. In Ihrem Fall bedeutet eine bessere Punktzahl, je niedriger desto besser. Sie möchten unter 200 kommen. Ich gehe davon aus, dass Sie es mit einer Regression zu tun haben. Das erste, was für eine Basislinie verwendet werden sollte, wäre eine gewöhnliche Regression der kleinsten Quadrate.

— Carl Rynegardh

8

Eine Baseline ist eine Methode, die Heuristiken, einfache zusammenfassende Statistiken, Zufälligkeit oder maschinelles Lernen verwendet, um Vorhersagen für einen Datensatz zu erstellen. Sie können diese Vorhersagen verwenden, um die Leistung der Basislinie (z. B. Genauigkeit) zu messen. Diese Metrik wird dann zu dem, mit dem Sie jeden anderen Algorithmus für maschinelles Lernen vergleichen.

Ausführlicher:

Ein Algorithmus für maschinelles Lernen versucht, eine Funktion zu lernen, die die Beziehung zwischen den Eingabedaten (Merkmaldaten) und der Zielvariablen (oder Bezeichnung) modelliert. Wenn Sie es testen, messen Sie die Leistung normalerweise auf die eine oder andere Weise. Beispielsweise kann Ihr Algorithmus zu 75% genau sein. Aber was bedeutet das? Sie können auf diese Bedeutung schließen, indem Sie sie mit der Leistung einer Baseline vergleichen.

Typische Baselines sind diejenigen, die von den "Dummy" -Schätzern von scikit-learn unterstützt werden :

Klassifizierungsgrundlagen :

„Geschichtet“: Generiert Vorhersagen unter Berücksichtigung der Klassenverteilung des Trainingssatzes.
"Most_frequent": Prognostiziert immer das häufigste Label im Trainingssatz.
"Prior": Sagt immer die Klasse voraus, die die vorherige Klasse maximiert.
"Uniform": Erzeugt Vorhersagen gleichmäßig zufällig.
"Konstante": Sagt immer eine konstante Bezeichnung voraus, die vom Benutzer bereitgestellt wird.

Dies ist nützlich für Metriken, die eine Nicht-Mehrheitsklasse bewerten.

Regressionsbasislinien :

"Median": Prognostiziert immer den Median des Trainingssatzes
"Quantil": Sagt immer ein bestimmtes Quantil des Trainingssatzes voraus, das mit dem Quantilparameter versehen ist.
"Konstante": Sagt immer einen konstanten Wert voraus, der vom Benutzer bereitgestellt wird.

Im Allgemeinen möchten Sie, dass Ihr Ansatz die von Ihnen ausgewählten Baselines übertrifft. Im obigen Beispiel möchten Sie, dass Ihre Genauigkeit von 75% höher ist als jede Basislinie, die Sie mit denselben Daten ausgeführt haben.

Wenn Sie sich schließlich mit einem bestimmten Bereich des maschinellen Lernens befassen (z. B. mit Empfehlungssystemen), wählen Sie in der Regel Baselines aus, die den aktuellen Stand der Technik (SoTA) entsprechen - da Sie in der Regel nachweisen möchten, dass Ihre Ansatz macht besser als diese. Wenn Sie beispielsweise einen neuen kollaborativen Filteralgorithmus evaluieren, möchten Sie ihn möglicherweise mit der Matrixfaktorisierung vergleichen - die selbst ein Lernalgorithmus ist, aber jetzt eine beliebte Basis ist, da sie in der Systemforschung für Empfehlungsgeber so erfolgreich war.

— Aditya
quelle

0

Da wir viele Algorithmen für maschinelles Lernen haben, müssen wir wissen, welcher ML-Algorithmus für unser Problem am besten geeignet ist. Dies wird durch den Baseline Prediction-Algorithmus identifiziert.

Ein Basislinien-Vorhersagealgorithmus bietet eine Reihe von Vorhersagen, die Sie wie Vorhersagen für Ihr Problem auswerten können, z. B. Klassifizierungsgenauigkeit oder RMSE.

Die Ergebnisse dieser Algorithmen bieten den erforderlichen Vergleichspunkt bei der Bewertung aller anderen Algorithmen für maschinelles Lernen zu Ihrem Problem.

Für weitere Informationen haben wir einen sehr guten Blog über ML: Was bedeutet "Baseline" im Kontext des maschinellen Lernens?

— San
quelle