Warum Spielewertungen mit 10er-Skala keinen Sinn machen

IGN 10er-Skala

Ich weiß, ich weiß, es gibt eine Menge Leute da draußen, die meinen, Spielewertungen würden per se keinen Sinn machen. Kunst bewertet man auch nicht und so, schon klar.

Denen ist nicht zu helfen, zumal das die ersten sind, die nach der Lektüre ihrer New Games Journalism Website auf metacritic gucken, ob der hübsch beschriebene Â»Grund-warum-ich-Gamer-binÂ« auch anständig abschneidet.

Für Euch, aber vor allem für alle anderen, gibt’s im folgenden die völlig unwissenschaftliche Darstellung, warum gerade 10er-Skalen als Grundlage für Spielewertungen keinen Sinn machen. Kann man sicher mal gebrauchen, z.B. vor der Eröffnung eines eigenen Review-Portals.

Schauen wir uns zunächst eine klassische 10er-Skala an, wie sie z.B. von Eurogamer verwendet wird: Es gibt 10 Punkte, von 1 bis 10, wobei die 1 die niedrigste Punktzahl ist, und die Punkte jeweils eine Wertungsspanne repräsentieren. Das ist beides relativ wichtig; nimmt man die Null hinzu, oder sieht man Null/Eins sowie Zehn lediglich als Endpunkte der Skala, erhält man ein etwas anderes Bild.

Tun wir nicht, so here we go:

10er-Skala

Wir alle verknüpfen nun bestimmte Wertigkeiten mit diesen Zahlen: Sehr gut, gut, mittel, nicht so gut, schlecht, ganz schlecht usw.

Das tun wir mehr oder minder intuitiv, ausgehend von Prozentzahlen und seltsamen mathematischen Erkenntnissen, bei denen ich in der Schule geschlafen habe. Festzuhalten bleibt jedoch, dass wir alle bei 3/10 den selben Kaufimpuls verspüren, nämlich gar keinen, und bei 9/10 wie die Irren in den nächsten Gameshop rennen.

Wir könnten also sicher jeder Zahl eine halbwegs mehrheitsfähige Beschriftung verpassen, doch fürs erste belassen wir es bei den drei Grundwertigkeiten:

Gut Mittel Schlecht

So.

Dann verteilen wir mal…

Nicht gut verteilt

Vermutlich könnte man darüber diskutieren, wie groß der mittlere Bereich zu sein hat, aber ob er sich nun von 6 bis 7 oder von 6 bis 8 erstreckt, spielt für die wesentliche Erkenntnis keine Rolle:

Während eine 10er-Skala im Â»gutenÂ« Bereich lediglich 2 bis 3 Einheiten bereitstellt, liefert sie im Â»schlechtenÂ« Bereich ein Minimum an 5.

Daraus ergibt sich zuerst einmal ein ziemlich krasses Ungleichgewicht der Werte. Die einzelnen Zahlen haben keinerlei direkten Gegenpart und sind auch untereinander nicht mehr vergleichbar.

Gut schlecht gestreckt

Vor allem aber existiert für die Beurteilung von schlechten Titeln eine viel feinkörnigere Skala als für die Beurteilung von guten Titeln.

Während ich also im oberen Bereich nur zwei bis drei Optionen habe — gut, sehr gut, ausgezeichnet –, kann ich im unteren Bereich viel differenzierter werten, obwohl dies gar nicht nötig ist. Schließlich dürfte es jedem (ja, jedem) komplett und total egal sein, ob ein Spiel nun schlecht, ganz schlecht, grottenschlecht, sauschlecht, superschlecht oder unter aller Spielerwürde angesiedelt ist.

Schlecht, basta.

Dort, wo eine differenzierte Wertung unter Umständen wünschenswert wäre, nämlich im oberen Bereich, steht sie dagegen nicht zur Verfügung.

Extrem deutlich wird das ganze Dilemma, wenn man mal guckt, wie in den letzten Jahren gewertet wurde, also auf welchen Punktebereich sich die Wertungen verteilen. Die Erfahrung wird den meisten sagen, dass sich die Mehrzahl der bewerteten Games im mittleren Bereich aufhalten dürfte, und dass es sich nach oben und unten hin ausdünnt.

Metacritic Xbox 360 Score-Verteilung

Oben: Anzahl Titel auf einzelne Scores. Unten: Anzahl Titel auf Score-Bereiche.

Was wir hier sehen, ist die Verteilung aller 407 Xbox 360 Titel, die derzeit bei metacritic auftauchen.

Schaut man sich die Graphen unbedarft an, könnte man zu dem Schluss kommen, dass wir es mit einem erstaunlich hohen Anteil überdurchschnittlicher Spiele zu tun haben, und wenn wir nur lange genug daran glauben, halten wir das sogar für absolut möglich oder gar selbstverständlich.

Next-Gen usw., waren ja auch super Jahre…

Tatsächlich handelt es sich aber um eine sterbenslangweilige Normalverteilung, die voll und ganz unseren Erwartungen entspricht — 100 Spiele gut, 200 Spiele mittel, 100 Spiele schlecht.

Bevor jetzt der große Konsolenkrieg ausbricht oder irgendjemand die Wertungen auf das geringe Alter der Konsole schiebt (End-of-Lifecycle-Mythos, die Kracher kommen noch)… hier die Verteilung aller bei metacritic auftauchenden PS2-Titel:

Metacritic Playstation 2 Score-Verteilung

Oben: Anzahl Titel auf einzelne Scores. Unten: Anzahl Titel auf Score-Bereiche.

Das sind 1.557 bewertete Spiele über einen Zeitraum von mehr als acht Jahren. 320 gut, 840 mittel, 390 schlecht.

Stinknormalverteilung. :)

Was bedeutet das nun für die Qualität der Wertungsskala? Tja, wie wir sehen, gibt es überhaupt keinen Bedarf an einer feinkörnigen Skala unterhalb des Durchschnitts. Wenn überhaupt, müsste man den Durchschnitt besser differenzieren können, bzw. alles oberhalb von Â»miesÂ«.

Die 10er-Skala (und alle Ableger) liefert also eine Darstellung für eine nicht-existente Situation. Es gibt gar nicht so viele schlechte Spiele, wie man für den sinnvollen Einsatz dieser Skala benötigte. Für den dicht gedrängten Mittelbereich stehen einem dafür die geringsten Möglichkeiten zur Verfügung, und die absoluten Top-Spiele balgen sich um zwei Wertungen, die kein Mensch so richtig auseinanderhalten kann.

Alles in allem könnte man meinen, dass die 10er-Skala hauptsächlich dort Verwendung findet, wo großer Wert auf effekthascherische Wertungen gelegt wird.

Â»10 von 10Â« — das klingt irgendwie fett, großartig und bedeutend. Wow, da haben sie aber eine Wahnsinns-Wertung erhalten, Donnerwetter, das Game muss ja alles toppen, was es bislang zu spielen gab.

Â»3 von 10Â« klingt dagegen richtig mies, übel und erbärmlich.

Dass beide Wertungen lediglich den Schwächen der gewählten Skala entspringen, macht das Â»Top-GameÂ« natürlich nicht schlechter und das Â»Schrott-GameÂ« nicht besser.

Es sollte einem allerdings zu denken geben.