Ist es möglich, einen Signifikanztest durchzuführen, der ausschließlich auf Präzision / Rückruf / F1-Ergebnissen basiert?
Wenn Sie beispielsweise in einem Artikel auf zwei Systeme stoßen, für die nur P / R / F1 gemeldet werden (auf demselben Datensatz usw.), können Sie dann einen statistischen Signifikanztest durchführen? Wenn ja, wie geht das?