Warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?


8

Einige Artikel sagen, dass BLEU keine geeignete Bewertungsmethode für Chatbot ist, stattdessen verwenden sie Ratlosigkeit, um Chatbot zu schätzen.

Was ist Ratlosigkeit? Wie berechnet man das? Und warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?


Hier ist eine Frage zu CrossValidated, in der gefragt wird, was Ratlosigkeit stats.stackexchange.com/q/10302/82135 ist.
nbro

Bitte beziehen Sie sich auf diese Antwort: stats.stackexchange.com/a/450945/103153
Lerner Zhang

In diesem Artikel stellt der Autor fest, dass Ratlosigkeit sehr gut mit menschlichem Urteilsvermögen korreliert: arxiv.org/pdf/2001.09977.pdf
Lerner Zhang

Antworten:


1

Mit Ratlosigkeit versuchen Sie, die Ähnlichkeit zwischen der vom Modell generierten Token-Verteilung (in Ihrem Fall wahrscheinlich Sätzen) und der in den Testdaten zu bewerten.

Angenommen, Sie haben M. Sätze s1,,sM.jeweils mit Wahrscheinlichkeit P.(sich)ist die Ratlosigkeit

2- -l,
wo l=1M.P.(sich)LogP.(sich) zum ich[1M.]].

Beachten Sie, dass Ratlosigkeit zwar nützlich sein kann, um bestimmte Aspekte des Modells zu erfassen, aber keineswegs perfekt ist. Selbst wenn Sie in der Lage sind, hohe Ratlosigkeit zu erzielen, führt dies nicht unbedingt zu einem guten oder sogar funktionierenden Chat-Bot.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.