Hier ist eine kurze Analyse, die auf der "Million Base" -PGN-Datenbank basiert. Ich habe das ein bisschen eilig gemacht, daher kann es durchaus zu Fehlern in meiner Programmierung oder Logik kommen. Bitte benutzen Sie es nicht für etwas zu ernstes. Update - Hinweis: Eigentlich ist mir gerade aufgefallen, dass ich einen Fehler mit dem Datensatz gemacht und ihn auf die ersten 1 Million Datensätze beschränkt habe. Ich werde ein Update veröffentlichen, wenn ich etwas Zeit habe, um es wieder vollständig auszuführen. In der Zwischenzeit sollten diese Zahlen dennoch interessant sein.
Beziehen der Daten:
Ich habe die Million Base 1.74-Datei von dieser URL erhalten , da die top-5000.nl-Site 404 zu sein scheint, wenn Sie tatsächlich versuchen, sie herunterzuladen. Die Datei enthält etwas mehr als 1 Million Spiele im PGN-Exportformat (dh einfach zu analysieren).
Leider fehlten mehr als 60% der Spiele Bewertungsinformationen (ich suchte nach "WhiteELO" - und "BlackELO" -Tags), und noch weniger hatten Bewertungen für beide Spieler. Am Ende entschied ich mich für eine möglichst große Stichprobe und zählte die Züge eines Spielers, wenn seine Bewertung bekannt war, unabhängig von der Bewertung des anderen Spielers.
Verarbeiten:
Die Spiele wurden nacheinander analysiert, und wenn die Bewertung eines Spielers bekannt war, wurden alle seine Züge für dieses Spiel zum Aggregat für die Bewertungsgruppe des Spielers hinzugefügt. Ich habe mich entschieden, die Bewertungen in Gruppen von 100 zu unterteilen, also waren zB 1600 bis 1699 eine einzelne Gruppe.
Da der aktuelle Movetext in PGN SAN ist, habe ich die folgenden Abkürzungen verwendet, um die Züge zu zählen: Ritter (N), Bischof (B), Turm (R), Dame (Q) und König (K). Alle Züge beginnen mit dem Buchstaben ihres Stücks . Castling (OO und OOO) wurde als Sonderfall gesondert gezählt. Alle verbleibenden Züge wurden ohne weitere Prüfung als Bauernzüge gezählt.
Es wurde keine Datenbereinigung durchgeführt. Es wurde nicht versucht, Ausreißer zu identifizieren und zu entfernen (z. B. übermäßig kurze und lange Spiele usw.). Ich behielt die Ergebnisse von Bewertungen unter 1600 bei, bezog sie jedoch nicht in die folgende Analyse ein - die Stichprobengröße für diese Spiele lag deutlich unter 100, was zu großen Abweichungen bei den Ergebnissen führte. Die Rohdaten finden Sie am Ende dieses Beitrags.
Einige Unzulänglichkeiten der Informationen: Im Moment habe ich nur sehr einfache Summen gesammelt und Durchschnittswerte angegeben. Ich bin mir ziemlich sicher, dass die Daten im Allgemeinen NICHT normal verteilt sind, aber nicht in der Lage sind, mehr zu sagen, ohne die Rohzählungen tatsächlich auszugeben und sie durch ein statistisches Programm zu führen. Ich kann das tun, wenn Interesse besteht. Im Moment bedeutet dies keine Konfidenzintervalle oder andere Informationen über die Verteilung der Zahlen, die diese Durchschnittswerte darstellen. Ich habe auch nicht überprüft, wie viele Jahre der Datensatz umfasst. Wenn er viele Jahre umfasst, kann es hilfreich sein, die Gesamtstärke des Feldes zu korrigieren.
Einige Trends:
Ein Wort zu den Spielerbewertungen - die am häufigsten angetroffenen Bewertungsgruppen waren in der Reihenfolge 2400 bis 2500, 2500 bis 2600 und 2300 bis 2400. Diese Bewertungsgruppen lieferten 72% der gezählten Spiele.
Angesichts der tatsächlichen Ergebnisse war die durchschnittliche Spieldauer eine kleine Überraschung:
Die Sub-2000-Bewertungsgruppen hatten alle signifikant kürzere Spiele als die höheren Gruppen. Dies kann durchaus damit erklärt werden, dass sie gegen stärkere Gegner gespielt haben (siehe Durchschnittsbewertung oben) und in weniger Zügen besiegt wurden. Dies scheint im Gegensatz zu den etwas kürzeren Spielen der Spitzengruppe zu stehen, obwohl dies möglicherweise zu einer geringeren Stichprobengröße beiträgt.
Die relativ großen Unterschiede in der durchschnittlichen Spieldauer haben dazu geführt, dass die Häufigkeit des Bewegens einer bestimmten Figur und nicht die Gesamtanzahl der Bewegungen einer Figur möglicherweise den faireren Vergleich darstellt. Die Berechnung der Frequenzen ergibt die folgende Grafik:
Folgende Trends scheinen vorhanden zu sein:
- Die Häufigkeit der Ritterbewegungen scheint mit der Bewertung leicht nach unten zu tendieren.
- Bischof bewegt sich Trend abwärts bis etwa 2000, dann langsam aufwärts.
- Der Turm bewegt sich ungefähr zum gleichen Zeitpunkt scharf aufwärts und bleibt häufiger als der Bischof, wenn er auf hohem Niveau spielt.
- Bauernbewegungen scheinen mit zunehmender Wertung leicht nach unten zu tendieren. Eine große Ausnahme bildet die Spitzenkategorie 2800 bis 2900. Damit kommen wir zum nächsten Punkt:
- Die Top-Rating-Kategorie bietet Ausreißer oder Gegentrends in einer ganzen Reihe von Messungen. Dies kann auf verschiedene Arten erklärt werden: 1) Die Stichprobengröße ist mit 363 ziemlich niedrig, nicht winzig, aber 10% der nächstkleineren Stichprobengröße enthalten. 2) Da sie an der Spitze der Bewertungsgruppen stehen, spielen sie niemals "stärkere" Gegner als sie selbst. 3) Oder einfach auf dieser Ebene hat ihr Spielstil die darunter liegenden Ebenen überschritten. Meine Vermutung wäre eine Kombination aus 1) und 2).
- Die Unterschiede bei den Bewegungen der Königinnen und der Rochade sind sehr gering und weisen keine wirklichen Trends auf, abgesehen von einem kleinen Abwärtstrend in beiden Fällen.
- Die Häufigkeit der Königszüge weist einige der größten Unterschiede auf. Es ist kein klarer Trend erkennbar, und es scheint, dass sich die Richtung drei- oder viermal ändert.
Weitere Analyse
Einige Ideen für zukünftige Analysen:
- Grundlegende statistische Korrekturen: Ich bin der Meinung, dass extrem kurze und lange Spiele wahrscheinlich ausgeschlossen werden sollten. Auch die Verteilung der tatsächlichen Zählungen kann sehr aussagekräftig sein.
- Eine weitere Aufteilung der Analyse kann ebenfalls interessante Ergebnisse liefern. Zum Beispiel würde mich interessieren, wie die Frequenzen für Schwarz und Weiß übereinstimmen (Sind sie gleich oder verschieden? Warum?).
- Eine Kategorisierung nach Bewertungsunterschieden könnte ebenfalls interessant sein. Spielen Spieler, die einen viel stärkeren Gegner spielen (z. B. 200 Bewertungen über ihnen), mit unterschiedlichen Bewegungsfrequenzen? Leider muss die ELO beider Spieler bekannt sein, was in diesem Datensatz selten vorkommt.
- Die Tendenz zu kurzen oder langen Schlössern kann auch je nach Bewertung variieren.
- Stückförderungsstatistiken, einige leichte Strukturanalysen (z. B. Inzidenz verdoppelter Bauern, en passant, Stecknadeln, Gabeln, nach Bewertung) könnten aufschlussreich sein.
- "Heatmaps" der Platzierung der Figuren auf dem eigentlichen Brett, angezeigt durch die Bewertung, könnten ebenfalls interessant sein.
Aggregierte Daten im CSV-Format
Für diejenigen, die mit den Daten spielen möchten, fühlen Sie sich frei.
Bewertungsbereich, Stichprobengröße, durchschnittliche Spieldauer, durchschnittliche Bauernbewegungen, durchschnittliche Ritterbewegungen, durchschnittliche Bischofsbewegungen, durchschnittliche Turmbewegungen, durchschnittliche Königinbewegungen, durchschnittliche Königsbewegungen, durchschnittliche Rochade
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857