Frage:
Gewichtete Anpassung für relativen Elo
Andrew Latham
2012-09-05 18:36:43 UTC
view on stackexchange narkive permalink

Ich habe neulich meine größten Probleme gesehen und festgestellt, dass das Ergebnis unbefriedigend war. Die meisten von ihnen waren 500-600 Punkte, als ich noch sehr schlecht bewertet war (d. H. 800 gegen 1300), während die Störungen, die ich für die größten halte, die 150-200 Punkte waren, die als A-Spieler oder Experte erzielt wurden. Ebenso wäre es eine viel größere Überraschung, wenn ein 2650 Levon Aronian schlagen würde, als wenn ein 1500 einen Meister schlagen würde. Je höher die Bewertungen sind, desto wichtiger sind die Punkte - ein Unterschied von 100 Punkten ist umso wichtiger, je höher Sie steigen.

Kann sich jemand eine gewichtete oder logarithmische Methode für die Darstellung von Elo-Bewertungen ausdenken? eine Art Skala, damit diese genau dargestellt wird und die Spieler auf konsistente Weise verglichen werden können, oder gibt es eine solche Skala bereits?

Vier antworten:
#1
+7
Andrew
2012-09-05 18:54:22 UTC
view on stackexchange narkive permalink

Ich denke, das Phänomen, das Sie beschreiben, ist auf die Variabilität des Spiels auf niedrigeren Ebenen zurückzuführen. Elo wird basierend auf der statistischen Wahrscheinlichkeit definiert, dass ein Spieler den anderen schlägt.

Hier ist die genaue Formel, um die erwartete Punktzahl für einen Spieler (Bewertung = Ra) gegen einen Gegner (Bewertung = Rb) zu erhalten:
ELO Rating formula

Dies bedeutet, dass Ein 800-Spieler schlägt theoretisch genauso wahrscheinlich einen 1000-Spieler wie ein 2200-Spieler einen 2400-Spieler.

Offensichtlich ist dies nicht der Fall, da auf den niedrigeren Ebenen eine viel höhere Varianz in der Ergebnisse. Dieser Unterschied wird im Glicko Rating System recht gut erfasst. Grundsätzlich hat ein Spieler eine Bewertung sowie eine Bewertungsabweichung (RD), die angibt, wie gut die Bewertung eines Spielers festgelegt ist. In Ihrem Fall, als Sie mit 800 bewertet wurden, waren Sie höchstwahrscheinlich näher an 1100 oder 1200, aber Ihre Bewertung hatte Ihre Stärke noch nicht erreicht. Es ist einer der grundlegenden Mängel in allen Bewertungssystemen, dass die Bewertung immer hinter der Stärke zurückbleibt. Wenn die USCF das Glicko-System verwendet hätte, hätten diese frühen Siege zu einem weitaus größeren Bewertungssprung geführt als tatsächlich, und Ihr Gegner hätte auch weniger Punkte verloren.

Zusammenfassend lässt sich sagen, dass, obwohl die Bewertungssysteme nicht perfekt sind und Ihre Stärke häufig über Ihrer Bewertung liegt, eine 800, die eine 1000 schlägt, und eine 2600, die eine 2800 schlägt, aus rein mathematischer Sicht beide gleich wahrscheinlich sind.

Andrews Antwort sagt bereits im Wesentlichen, was ich sagen werde, aber es könnte eine nützliche Umformulierung sein. Eine Bewertung ist nur eine Schätzung des wahren Werts eines Parameters (Spielstärke), und dieser Wert ändert sich im Laufe der Zeit. Da ein schwächerer Spieler das Potenzial hat, diesen Wert schnell zu erhöhen, während ein starker Spieler dies nicht tut, können wir erwarten, dass die Bewertungen schwächerer Spieler im Allgemeinen schlechter sind als die für stärkere Spieler, und daher sollten wir auf diesen Ebenen größere Störungen sehen zu. Die RD des Glicko-Systems liefert einen expliziten Indikator dafür, wie sicher man bei bestimmten Bewertungen / Schätzungen ist.
#2
+1
D M
2018-05-21 06:59:15 UTC
view on stackexchange narkive permalink

Sie können jede gewünschte Skala erstellen ... aber wie bereits gesagt, werden Bewertungen bereits berechnet, sodass eine bestimmte Bewertungsdifferenz eine bestimmte erwartete Punktzahl ergibt. Die Anpassung wird wahrscheinlich nur die Dinge verzerren, insbesondere wenn die Anpassung in dem von Ihnen vorgeschlagenen Ausmaß erfolgt und ausschließlich auf den Bewertungszahlen basiert (im Gegensatz beispielsweise zu der Tatsache, dass Ihre 800er-Bewertung vorläufig war und es ging in den wenigen Turnieren, die es dauerte, bis sich Ihre Bewertung etabliert hat, deutlich zu steigern.)

Ich denke, Sie überschätzen, wie ungewöhnlich es ist, dass ein 2650 einen 2820 oder so schlägt. Bei einer Lücke von 170 Punkten bei den Bewertungen wird erwartet, dass die niedrigere Person etwa 27 bis 28% erreicht. Obwohl ein Großteil dieser Punktzahl aus Unentschieden stammt, gewinnt der niedrigere Spieler manchmal. Um herauszufinden, wie oft ich mir eine Datenbank mit 127.000 Spielen angesehen habe. Ich habe es nach Spielen gefiltert, in denen ein 2800+ jemanden mit 2650 oder weniger gespielt hat. Es gab 230 solcher Spiele. Davon wurden 16 von der schwächeren Seite gewonnen. Das sind ungefähr 7%.

Oder Sie unterschätzen, wie schwer es für einen 1500er ist, einen Meister zu schlagen. Ich habe keine Datenbank mit Spielern mit niedrigerer Bewertung gegen Meister, aber ich habe mir die USCF-Spielhistorie eines FM mit 2309 Bewertungen aus meinem Bundesstaat angesehen. Er hat 48 Spiele gegen Personen unter 1500 gespielt, seit sie Ende 1991 den Überblick behalten und null verloren haben. Er hat 104 Spiele gegen Personen mit einer Bewertung von 1500-1699 gespielt und 4 verloren. Gegen Personen mit einer Bewertung von 1700-1999 hat er 33 von 589 oder etwa 5,6% verloren.

Ja, ich mische USCF- und FIDE-Bewertungen nach Wenn man die beiden vergleicht, würde ich dennoch sagen, dass ein 1500er, der einen Meister schlägt, tatsächlich eine größere Überraschung darstellt als ein 2650er (was fast ausreicht, um in der Top-100-Liste der Welt zu stehen), der einen 2820er schlägt.

Aber Sie habe nicht danach gefragt, also werde ich es jetzt beiseite legen. Sie haben nach möglichen Formeln gefragt. Eine Formel, die möglicherweise dem entspricht, was Sie zu beabsichtigen scheinen (wobei das Ausmaß der Störung anhand der Bewertung des Gegners stark gewichtet wird und alle Bereiche der Bewertungsskala betrifft), lautet:

A = D * 2 ^ ((R / 300) -5)

"A" ist der angepasste Betrag der Störung, "D" ist die Differenz in die Bewertungen und "R" ist die Bewertung des Gegners. Die 2 bedeutet, dass sich die angepasste Überraschung für einen bestimmten Betrag der Bewertung des Gegners verdoppelt (wenn es eine 3 wäre, würde sie sich stattdessen verdreifachen), und die 300 repräsentiert den Betrag, der für diese Änderung erforderlich ist. (Die 5 ist nur für die Skala.) Nach dieser Formel verdoppelt sich für jede 300 Punkte, die der Gegner bewertet, der angepasste Betrag der Störung.

Ich persönlich denke, das ist so zu steil (ein Unterschied in den Bewertungspunkten von 1500 Gegnern bedeutet, dass er um den Faktor 32 angepasst wurde, und ich glaube nicht, dass man jemals sagen kann, dass ein Unterschied von 10 Punkten dem Unterschied von 320 Punkten entspricht), aber es scheint zu passen, was war wollte. Diese Formel würde einen 2650 schlagen, der einen 2820 etwas besser schlägt als einen 1500, der einen 2200 schlägt, und würde einen 1800 schlagen, der einen 1950 besser schlägt als einen 800, der einen 1300 schlägt.

#3
  0
edwina oliver
2020-02-08 22:49:56 UTC
view on stackexchange narkive permalink

Sie könnten sich viel kompliziertere Methoden zur Messung der Leistung einfallen lassen, aber dies würde die INKONSISTENZ und VARIABILITÄT von Spielern mit niedrigerer Bewertung nicht angemessen beheben.

Darüber hinaus sind die Bewertungen bei niedrigen Niveaus überhaupt nicht genau, weil dort ist unzureichende Mischung der Konkurrenz. Top-GMs spielen sich selbst, was eine viel viel kleinere Gruppe ist als Spieler mit Rating-Club-Level weltweit oder sogar in einem großen Land. In diesem Fall sollte ein kleines Land schwächere Spieler haben als die Gesamtzahl aller GMs auf der Welt.

Und Bewertungen schätzen nur die VERGANGENE LEISTUNG, was, wie die Anzeigen sagen, keine Garantie für die zukünftige Leistung ist. Kinder verbessern sich sehr; und GMs werden alt und normalerweise etwas schwächer.

#4
-1
Jamal Munshi
2014-08-29 06:00:07 UTC
view on stackexchange narkive permalink

Die Schwäche des Elo-Bewertungssystems besteht darin, dass es auf "Punkten" beruht, dh Trinomial-Schachspielergebnisse durch binomiale "Punkte" ersetzt (Gewinn = 1, Verlust = 0, Unentschieden = 1/2). Durch die Wertung gehen einige Informationen zum Spielergebnis verloren. Ich habe den Informationsverlust empirisch gemessen und für signifikant befunden. Ich habe ein zweidimensionales Leistungsmaß vorgeschlagen, das genauer ist, weil es mehr Informationen enthält.

Ich kann die Zeitung nicht ohne einen weiteren Bericht lesen


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...