Computerauswertungen: Wie vertrauenswürdig sind sie?


14

Fritz 12 mit Rybka gab einem Freund von mir eine Bewertung von +3 für Weiß in dieser Endspielposition ,

Weiß zum Bewegen

was sich als Unentschieden herausstellte. Aber ich habe gehört, dass +3 von einem Computer einen garantierten Gewinn bei perfektem Spiel bedeutet. Habe ich gerade falsch gehört? Wie sind Computerauswertungen allgemein zu interpretieren? Was bedeuten die Öffnungsvorteile von <.5 überhaupt?


3
Ich würde den Kommentar "Garantierter Gewinn" anfechten. Die Bewertungszahl ist ein heuristischer Indikator, im Grunde ein "Gefühl", das der Computer für die Position hat. Endspiele können "überraschende" Ergebnisse haben, und wenn der Computer nicht so programmiert wurde, dass er alle möglichen Muster erkennt (oder sie vollständig berechnet), werden einige davon übersehen. Anders ausgedrückt: Wenn +3 wirklich garantiert wäre, wäre es nicht +3, sondern + unendlich.
Daniel B

Fürs Protokoll habe ich dies mit den 7-teiligen Tischgestellen von Lichess überprüft, und es ist in der Tat ein Unentschieden.
PhishMaster

Antworten:


8

Hier gibt es ein paar Dinge.

Erstens hat jedes Programm seine eigene Art, Positionen zu bewerten, sodass die Ergebnisse nicht direkt verglichen werden können. Zum Beispiel habe ich kürzlich mit StockFish gegen Rybka gespielt und festgestellt, dass Stockfish etwa doppelt so viele Punkte wie Rybka erzielt. Das hat mich überrascht, aber es ist ziemlich klar, dass eine Punktzahl von 1 nicht immer "1 Bauer" bedeutet. Ich denke, wir sollten uns ansehen, wie sich die Punktzahl ändert. Eine andere Kuriosität, die ich gestern gesehen habe (als ich zufällig eine Ihrer anderen Fragen beantwortet habe), war, dass der Bewertungsalgorithmus von Stockfish ungerade Zahlen nicht sehr mag. Tatsächlich waren die meisten Punkte Vielfache von 0,04. Angesichts der Tatsache, dass die Größe des Wertes willkürlich ist, würde ich nicht annehmen, dass ein bestimmter Wert "einen sicheren Gewinn" bedeutet, es sei denn, die Maschine behauptet, einen Partner gefunden zu haben.

Zweitens wurden Endspieltabellen erstellt, da das Lösen von Endspielen viel Suchtiefe erfordert. Computer, die mit Turniergeschwindigkeit spielen, machen das einfach nicht gut. Ich habe vor ein paar Tagen ein anderes Spiel durchgearbeitet und auf dieser Seite angekündigt, dass eine Seite einen Vorteil hat. Ed benutzte eine Tischbasis, um zu zeigen, dass es kein Geheimnis mehr in der Position gab - es wurde theoretisch gezeichnet. Natürlich gibt es einen großen Unterschied zwischen Draw with Perfect Play und Draw. Die Spieler müssen die richtigen Züge finden.


Der geringe Wert, den Weiß in der Anfangsphase des Spiels erhält, bedeutet im Grunde, dass Weiß mehr wertvolle Immobilien beanspruchen kann. Zum Beispiel kann Weiß in Zug 1 e4 beanspruchen und e5 und f5 angreifen. Schwarz kann kontern. Aber dann kann Weiß Sc3 spielen und a4, b5, d5 und e4 angreifen / verstärken. Aber Schwarz kann kontern. Es bedeutet also sehr wenig.


Um die Frage in Ihrer Betreffzeile zu beantworten: Die Bewertungen sind sehr vertrauenswürdig, da sie auf harten Fakten und einer beeindruckenden Suchtiefe basieren. Natürlich sind die Maschinen nicht unfehlbar. Aber wir B-Spieler müssen bedenken, dass Stockfish (oder Rybka) auf bescheidener Hardware mit GM-Stärken spielt. Bei der besten gängigen Hardware schätzen sie ihre Bewertung auf FIDE 3200. Dies ist so hoch, dass nur die besten Menschen eine geringe Chance haben, nicht zu verlieren.

Überlegen Sie, was dies bedeutet. Ich (USCF 1650-ish) habe keine Chance gegen eine Person (sagen wir USCF 2050), die keine Chance gegen eine Person (sagen wir USCF 2450) hat, die keine Chance gegen eine Person (sagen wir USCF 2850) hat, die einen Splitter hat eine Chance gegen ein erstklassiges kommerzielles Programm (FIDE 3200).

Wenn also Stockfish sagt, ein Zug sei besser als ein anderer, nehme ich ihn normalerweise zum Nennwert. Wenn ich die Endgame-Tischbasen anschliesse, wird dieses Ding anfangen, Kumpel in den Dreißigern anzukündigen, lol.


1
Sehr nette Antwort. Ich dachte immer, dass eine Bewertung von 1 den Wert von 1 Bauer bedeutet. Außerdem sagt Chesstempo, dass die besten Züge in ihren Problemen diejenigen sind, die mindestens 2 Bauern im Wert von Material gewinnen. Daher habe ich eine Engine-Bewertung von +2 oder mehr als Sieg angesehen, unabhängig von der Phase in einem Spiel. Ich habe jedoch festgestellt, dass die Analyse von Stockfischen zuvor fehlerhaft war, und festgestellt, dass Endspiele nicht ordnungsgemäß bewertet werden können. Wissen Sie in diesem Sinne, wo ich eine Datenbank mit Endspielen finden kann?
Chubbycantorset

Hier ist die online 6-Mann-Tischbasis, die Ed gepostet hat: k4it.de/index.php?topic=egtb&lang=de
Tony Ennis

+1 für "Ich würde keinen bestimmten Wert annehmen, bedeutet" ein sicherer Gewinn ", es sei denn, die Maschine behauptet, sie hätte einen Partner gefunden."
Ferit

14

Unterschiedliche Motoren haben unterschiedliche "Skalen" für ihre numerischen Auswertungen. Beispielsweise ist es in einer typischen Mittelspielposition mit viel verbleibendem Spiel, wenn Houdini +2,00 oder besser sagt, sehr wahrscheinlich, dass Weiß einen Gewinnvorteil hat (obwohl ich auch hier aus einem bestimmten Grund Qualifikationen angegeben habe). Aber bedenken Sie: man könnte den Quellcode von Houdini modifizieren und die absoluten Werte aller an Auswertungen beteiligten Zahlen verdoppeln; man bekommt einen Motor mit identischer Stärke, der identisches Spiel erzeugt, aber jetzt bedeutet +4.00, was früher +2.00 bedeutete. Dies zeigt, dass man keinen einheitlichen numerischen Schwellenwert für alle Motoren erwarten sollte , der normalerweise einen Gewinnvorteil anzeigt.

Darüber hinaus ist es wichtig zu verstehen, dass eine numerische Engine-Bewertung einer Position (im Gegensatz zu einer direkten Erklärung des unvermeidlichen Partners) auch für eine einzelne, festgelegte Engine nicht unbedingt "ein gewonnenes Spiel" bedeutet. Ein entscheidender Punkt ist, dass numerische Auswertungen keine eindeutige "Bedeutung" im weitesten Sinne des Wortes haben und vielmehr nur ein Ersatz für ein fühlendes Denken sind, das verwendet wird, um einen Motor mechanisch zu allgemein wünschenswerten Ergebnissen zu führen, indem beeinflusst wird, welche Bewegung er an jedem Punkt auswählt im Spiel; In diesem Licht ist für das Spiel eines Motors letztendlich nur der Unterschied in der Bewertung, der potenziellen Zügen zugewiesen wird, und nicht irgendetwas an den absoluten Werten am wichtigstenbeteiligt. Die Zahlen sind nützlich für den Motor selbst, der etwas Konkretes benötigt, um eine Entscheidung für eine Bewegung über eine andere zu treffen, aber wir Menschen sollten nicht zu schnell sein, um mehr Bedeutung in die Größenordnungen zu lesen, die mit Gedanken wie "+ X bedeutet" verbunden sind ein Sieg."

Insbesondere können wir, je weiter und weiter wir uns einem Endspiel im Gegensatz zu einem Zwischenspiel nähern, weniger eine Faustregel (wie meine +2.00 für Houdini in Zwischenspielen oben) anwenden, die besagt, dass eine bestimmte Schwelle für einen Gewinn ausreicht. Ein Hauptgrund dafür ist die Schwierigkeit, dass Motoren Festungen erkennen, bei denen eine Fülle an zusätzlichem Material noch nicht ausreicht, um zu gewinnen. Zum Beispiel, wenn ich Stockfisch diese Position füttere,

NN - NN

Nach ein paar Minuten gibt es eine Bewertung von ungefähr +7.00 und in einer typischen Position, wenn Stockfish das sagt, haben Sie mit ziemlicher Sicherheit einen Gewinn in Ihren Händen. Trotzdem ist dies ein Dead Draw, und ein Mensch kann dies leicht erkennen, sobald die Tatsache erkannt wird, dass Schwarz den Turm einfach zwischen f6 und h6 mischen kann, und somit (1) der h-Bauer unbrauchbar ist und (2) der Weiße König wird der weißen Königin niemals helfen können anzugreifen. Letztendlich wird Stockfish auch hier ein Unentschieden erkennen, wenn es gegen 50 Züge anstößt, oder wenn schließlich die verschiedenen Züge ausgehen, um zu versuchen, eine Wiederholung endgültig zu vermeiden, aber diese Ereignisse liegen weit unterhalb der Suchtiefenlinie.

Die Endspielposition aus Ihrer früheren Frage, mit der Sie verbunden sind, ähnelt dieser Art von Festung, da die zusätzlichen, verbundenen, übergebenen Spielfiguren, die Weiß besitzt, nett und alle sind, aber letztendlich nicht genug, um in dieser Position zu gewinnen. Wenn eine Engine genügend Zeit berechnet, um so viele Informationen wie in Tabellenbasen enthalten zu sehen, würde ihre Bewertung auf 0 sinken, aber in der Zwischenzeit hat ihr Bewertungsalgorithmus nichts Besseres zu tun, als dafür ein + zu geben zusätzliches Material (das es noch nicht weiß, ist bedeutungslos).


+1 für "Darüber hinaus ist es jedoch wichtig zu verstehen, dass eine numerische Motorbewertung einer Position (im Gegensatz zu einer direkten Erklärung des unvermeidlichen Gefährten) niemals unbedingt zu einem gewonnenen Spiel führt"
siehe

8

Ich denke, dieses Bild beschreibt die Situation ziemlich gut. Es wurde aus 400.000 Spielen erstellt und berücksichtigt nur einfaches Material.

Gewinnwahrscheinlichkeit / Bauernvorteil

Quelle: Bauernvorteil, Gewinnprozentsatz und ELO


1
Netter Beitrag! +1
Ferit

@ Thomas Ahle: Die Grafik ist interessant. Aber der Originalartikel ist nicht mehr verfügbar, der Wikispaces-Link ist leider zusammengebrochen. Erinnern Sie sich an die genaue Bedeutung von W = Win Probability? War es Sieg gegen Niederlage, die Unentschieden zu ignorieren? Oder war es "erwartete Punktzahl" unter Berücksichtigung der Auslosungen?
Diedrsch

@Diedrsch Ich habe den Link aktualisiert
Thomas Ahle
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.