Wie genau sind die Bewertungen der Schachmotoren?

Angesichts des laufenden TCEC-Turniers dachte ich, wie kommen sie zu den Bewertungen dieser Computer? Vermutlich sollte eine Schach-Engine mit einer Bewertung von 2000 eine Punktzahl von etwa 0,5 gegenüber einer 2000-bewerteten Schach-Engine erwarten. Dies macht es möglicherweise einfach zu überprüfen, ob Schach-Engines wirklich ungefähr der Bewertung entsprechen, die sie angeblich abgeben. Dies ist jedoch problematisch für höher bewertete Programme wie komodo, der angeblich bei 3250 liegt. Offensichtlich spielen keine Menschen auf diesem Niveau. Darüber hinaus spielen selbst 2800 bewertete Computer nicht gegen Menschen (ich bezweifle, dass Magnus gegen Computer spielt, um Entwicklern bei der Definition ihrer Bewertung zu helfen). Es ist sogar verdächtig, wenn Motoren gegen Großmeister spielen, um ihre Stärke zu bestimmen. Ich vermute also, dass diese Motorbewertungen von Motoren bestimmt werden, die vor langer Zeit Gegner ähnlicher Stärke spielen. und die meisten Bewertungen stammen heutzutage von Engine vs Engine-Spielen. Aber wenn dies wahr wäre, würde ich nicht erwarten, dass die Motorbewertungen im Vergleich zur menschlichen Elo-Skala genau sind. Gibt es eine Möglichkeit, die Richtigkeit der Motorwerte zu überprüfen?

engines

— CognisMantis
quelle

Wenn Sie einen Menschen mit zuverlässiger Bewertung erhalten, ein Match gegen einen schwachen Computer spielen, um den Computer elo zu "kalibrieren", können Sie später diesen Motor gegen einen anderen Motor verwenden, der 300 Punkte höher ist, um diesen zu kalibrieren, und so eine Treppe hinaufgehen, 300 elo punkte jedes mal, um es statistisch einfach zu machen (so dass nicht alle gewinnen, denn woher weißt du dann, wie viel punkte es besser ist) ich denke, es wäre machbar, zumindest elo von starken motoren zu schätzen.

— Santropedro

Die Bewertungen der Computerschachmotoren beziehen sich nicht auf die FIDE-Bewertungsliste.

Zum Beispiel hat der MicroMaxMotor eine CCRL-Bewertung von etwa 1950:

http://www.computerchess.org.uk/ccrl/4040/

Ich verteile eine iOS-App ( ChessMini ) für diese Engine. Ich schrieb auf der App-Beschreibungsseite:

Die Engine hat eine Bewertung von Elo 2000 in den Computer Chess Rating Lists und ist stärker als 70% der menschlichen Schachspieler.

Dies gilt nur, wenn die CCRL-Schachbewertung der FIDE-Bewertungsliste sehr nahe kommt.

Leider haben sich mehrere Benutzer beschwert, dass sie die App überzeugend schlagen konnten, obwohl ihre FIDE-Bewertungen weit unter 1900 liegen. Tatsächlich habe ich selbst eine FIDE-Bewertung um 2000, aber die MicroMax-Engine hat mich nie geschlagen. Ich denke, es ist "echte" Bewertung auf der FIDE-Skala ist 1300-1400.

Vergessen Sie die menschliche Bewertungsliste, schauen Sie sich einfach die relative Rangfolge an .

Computerschachbewertungen sind außerordentlich genau (aber keine Beziehung zur FIDE), da die Stichprobengröße nur durch Ihre Verarbeitungsleistung begrenzt ist. Sie starten ein Motorturnier, lassen den Computer laufen und gehen ins Bett ... Es ist 24 Stunden Schach wie bei TCEC. Sie spielen so viele Engine-Matches, wie sich Ihr Computer leisten kann.

Computer-Engines erhalten eine Bewertung, indem sie andere Engines spielen. Keine menschliche Intervention. Kein Großmeister. Jeder mit einem Laptop kann das:

Laden Sie Arena oder Cutechess herunter
Laden Sie Ihre Lieblingsmotoren herunter
Starten Sie ein Motorturnier

Das war's, es ist so einfach! Sie erhalten geschätzte Bewertungen für Ihre Motoren.

— SmallChess
quelle

Trotzdem sollte es eine ungefähre Beziehung zwischen den beiden Listen geben, nein? (Es ist schwer, eine solche Beziehung mit wenigen Spielen zwischen Menschen und Computern zu finden, aber es sollte eine geben.)

— TMM

@ TMM Vielleicht. Wenn es eine gibt und diese statistisch nachgewiesen werden kann (so etwas wie Korrelation), versuchen Sie bitte Ihre Antwort.

— SmallChess

Ihre Antwort bietet eine interessante Anekdote und ist insofern wertvoll, scheint jedoch in der spezifischen Angelegenheit, die OP aufwirft, nicht maßgebend zu sein. Ihre Antwort ist Ihre Antwort, daher denke ich nicht, dass Sie sie ändern sollten, es sei denn, Sie möchten nur; aber ich glaube trotzdem, dass die Antwort genauer gewesen wäre, wenn sie begonnen hätte: "Ich kenne die Antwort auf Ihre Frage nicht, aber hier ist eine aufschlussreiche Anekdote." Meiner Ansicht nach ist die Frage daher noch offen und möchte immer noch eine angemessene Antwort.

— 19.