Ich habe mehrere unabhängige Programmierer, die versuchen, Ereignisse in einer Zeitreihe zu identifizieren. In diesem Fall sehen sie sich ein Video von Gesprächen von Angesicht zu Angesicht an, suchen nach bestimmten nonverbalen Verhaltensweisen (z. B. Kopfnicken) und codieren die Zeit und die Kategorie der einzelnen Ereignisse Veranstaltung. Diese Daten könnten vernünftigerweise als diskrete Zeitreihen mit einer hohen Abtastrate (30 Bilder / Sekunde) oder als kontinuierliche Zeitreihen behandelt werden, je nachdem, was einfacher zu bearbeiten ist.
Ich würde gerne ein gewisses Maß an Interrater-Zuverlässigkeit berechnen, aber ich gehe davon aus, dass bei Eintreten der Ereignisse eine gewisse Unsicherheit besteht . das heißt, ich erwarte, dass ein Codierer zum Beispiel codieren könnte, dass eine bestimmte Bewegung eine Viertelsekunde später begann, als andere Codierer dachten, dass sie gestartet wurde. Dies sind seltene Ereignisse, wenn das hilft; In der Regel mindestens einige Sekunden (Hunderte von Videoframes) zwischen den Ereignissen.
Gibt es eine gute Methode zur Beurteilung der Zuverlässigkeit zwischen Bewertern, bei der diese beiden Arten von Übereinstimmung und Meinungsverschiedenheit berücksichtigt werden: (1) Stimmen die Bewerter darin überein, welches Ereignis aufgetreten ist (falls vorhanden), und (2) sind sie sich einig, wann es aufgetreten ist? Die zweite ist wichtig für mich, weil ich daran interessiert bin, den Zeitpunkt dieser Ereignisse im Verhältnis zu anderen Dingen zu betrachten, die im Gespräch vor sich gehen, wie zum Beispiel das, was die Leute sagen.
Die übliche Praxis in meinem Bereich scheint darin zu bestehen, Dinge in Zeitscheiben aufzuteilen, etwa 1/4 Sekunde, die Ereignisse zu aggregieren, die jeder Codierer pro Zeitscheibe gemeldet hat, und dann Cohens Kappa oder ein ähnliches Maß zu berechnen. Aber die Wahl der Slice-Dauer ist ad-hoc und ich kann mir keine Vorstellung von der Ungewissheit in der Zeit der Ereignisse machen.
Der beste Gedanke, den ich bisher habe, ist, dass ich eine Art Zuverlässigkeitskurve berechnen könnte; so etwas wie Kappa als Funktion der Größe des Fensters, in dem ich zwei Ereignisse als gleichzeitig codiert betrachte. Ich bin mir allerdings nicht sicher, wohin ich von dort aus gehen soll ...