Einige Artikel sagen, dass BLEU keine geeignete Bewertungsmethode für Chatbot ist, stattdessen verwenden sie Ratlosigkeit, um Chatbot zu schätzen.
Was ist Ratlosigkeit? Wie berechnet man das? Und warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?