Warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?

Einige Artikel sagen, dass BLEU keine geeignete Bewertungsmethode für Chatbot ist, stattdessen verwenden sie Ratlosigkeit, um Chatbot zu schätzen.

Was ist Ratlosigkeit? Wie berechnet man das? Und warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?

neural-networks natural-language-processing chat-bots

— RuiZhang1993
quelle

Hier ist eine Frage zu CrossValidated, in der gefragt wird, was Ratlosigkeit stats.stackexchange.com/q/10302/82135 ist.

— nbro

Bitte beziehen Sie sich auf diese Antwort: stats.stackexchange.com/a/450945/103153

— Lerner Zhang

In diesem Artikel stellt der Autor fest, dass Ratlosigkeit sehr gut mit menschlichem Urteilsvermögen korreliert: arxiv.org/pdf/2001.09977.pdf

— Lerner Zhang

Mit Ratlosigkeit versuchen Sie, die Ähnlichkeit zwischen der vom Modell generierten Token-Verteilung (in Ihrem Fall wahrscheinlich Sätzen) und der in den Testdaten zu bewerten.

Angenommen, Sie haben $M$ Sätze $s_1, \dots, s_M$ jeweils mit Wahrscheinlichkeit $P(s_i)$ ist die Ratlosigkeit

2^{- - l},

$2^{-l},$ wo

l = \frac{1}{M} \sum P (s_{i}) \log P (s_{i})

$l = \frac{1}{M} \sum P(s_i) \log P(s_i)$ zum

i \in [1 \dots M]

$i \in [1 \dots M]$ .

Beachten Sie, dass Ratlosigkeit zwar nützlich sein kann, um bestimmte Aspekte des Modells zu erfassen, aber keineswegs perfekt ist. Selbst wenn Sie in der Lage sind, hohe Ratlosigkeit zu erzielen, führt dies nicht unbedingt zu einem guten oder sogar funktionierenden Chat-Bot.

— Ginge
quelle