Fallstricke deskriptiver Statistik

Beispieldatensätze mit nahezu identischen Maßzahlen, aber stark unterschiedlichen Formen. Basierend auf Matjeka und Fitzmaurice (2017), Same Stats, Different Shapes.Quelle: revolutionanalytics

Gleicher Effekt wie im gif, aber ohne Animation. Basierend auf Matjeka und Fitzmaurice (2017), Same Stats, Different Shapes. Quelle: Adler (2022), Uncertainty Quantification in Biophotonic Imaging using Invertible Neural Networks.

Begriffe aus der deskriptiven Statistik begegnen uns häufig, z.B. wenn über den mittleren Stromverbrauch eines Haushalts berichtet wird oder wie viel Vermögen das reichste Prozent der Weltbevölkerung besitzt. Solche Maß- oder Kennzahlen sind wichtig, um die Informationen eines Datensatzes auf einen für einen Menschen handhabbares Maß an Komplexität zu reduzieren. Gleichzeitig führt diese Reduktion unweigerlich zu einem Verlust an Information. Als “mündiger” Nutzer statistischer Auswertungen ist es gut, wenn man sich einiger Fallstricke, die diese Aggregation (Zusammenfassung) mit sich bringt, bewusst ist. Insbesondere, da es immer wieder Beispiele dafür gibt, dass Akteure Kennzahlen geschickt oder kreativ einsetzen, um ihre Agenda voranzutreiben.

Zu erst versuchen wir ein Gefühl für Kennzahlen zu bekommen und konzentrieren uns dabei auf sogenannte Lagemaße (Mittelwert, Median und Modus). Dabei geht es um wichtige Eigenschaften dieser Lagemaße und wie sie für die “strategische Kommunikation” eingesetzt werden können.

Im Anschluss setzen wir uns mit der Korrelation auseinander. Dies ist eine sogenanntes Zusammenhangsmaß, das den Zusammenhang zwischen zwei (Mess-)Größen quantifiziert. Die Korrelation ist ein wichtiges statistisches Werkzeug, allerdings treten auch dort unintuitive Effekt auf, die wir hier spielerisch (und experimentell) kennenlernen wollen.

Maß-/Kennzahlen

Wir leben in einer Welt mit riesigen Mengen an Daten. Am Large Hardron Collider in der Schweiz haben in 2017 200 Petabyte an Daten gespeichert. Künstliche Intelligenzen zur Bildklassifizierung werden auf Millionen Bildern trainiert. Für Sprachmodelle wie ChatGPT oder Bard wird die gesamte Wikipeidia und mehr als Trainingsdaten verwendet.

Kein Mensch kann sich jeden einzelnen Datenpunkt dieser riesigen Datensätze anschauen, geschweige denn daraus Muster oder Gesetzmäßigkeiten ableiten. Die Datenmengen müssen geeignet zusammengefasst werden, um sie einer Analyse zugänglich zu machen. Dabei wird auch heutzutage immer noch nur “mit Wasser gekocht” und die meisten Maß- und Kennzahlen sind Jahrzehnten oder bereits Jahrhunderten etabliert. Natürlich gibt es auch neuere Methoden (z.B. UMAP oder t-SNE), aber diese führen für den Workshop zu weit.

Auch wenn man nicht jeden Datenpunkt einzeln betrachten kann, so ist es trotzdem eine gute Idee die Daten zu plotten. Es gibt eigentliche keine Gründe, die dies verhindern sollten. Ein fehlender Plot der Rohdaten ist daher immer ein Indiz für Probleme, die evtl. verschleiert werden sollen.

Bei der Visualisierung der Rohdaten haben sich einige Plot-Arten etabliert. Weitverbreitet is z.B. der Boxplot. Die Grafik unten illustriert, dass die Boxplot Darstellung schon stark aggregiert ist und Struktur in den Daten verbirgt. Violinplots oder Boxplots mit Dotplots erhalten die Struktur und sollten bevorzugt werden.

Die selben Daten verschieden stark aggregiert. Aus Annika Reinke et al. (2022), "Common LImitations of Image Processing Metrics: A Picture Story”

Das Problem der Visualisierung überträgt sich 1-zu-1 auf andere Kennzahlen: Starke Aggregation unterdrückt Struktur in den Daten. Dies wird bereits in der Einführungs-Animation (oben) dieser Seite deutlich.

Es gibt drei wichtige Kategorien an Kenn-/Maßzahlen:

Lagemaße

Beispieldaten mit eingezeichnetem Mittelwert, Median und Modus. Die Daten clustern um zwei Werte (einmal bei ca. 2,5 und einmal bei ca 8,5). Das sorgt dafür, dass der Mittelwert in einen Bereich wandert, wo sehr wenige Datenpunkte liegen. Dies ist eine weitere Folge der Ausreißeranfälligkeit. Median und Modus bleiben in einem Bereich mit vielen Datenpunkten (sog. Bereich hoher Dichte). Allerdings ignorieren sie den zweiten Cluster um 8,5 komplett.

Lagemaß geben an “wo” sich die Verteilung der Daten befindet. Was genau mit “wo” gemeint ist, beschreibt das genaue Lagemaß. Eine unvollständige Liste an Lagemaßen ist die folgende:

(Arithmetischer) Mittelwert: Der Mittelwert oder Durchschnitt ist wohl das bekannteste Lagemaß. Alle Datenpunkte werden aufaddiert und durch die Anzahl der Datenpunkte geteilt. Der Mittelwert ist der Wert den die Datenpunkte haben müssten, wenn alle konstant den gleichen Wert hätten. Eine wichtige Eigenschaft des Mittelwerts ist, dass er sehr ausreißer-anfällig ist. Nehmen wir an wir haben einen Datensatz mit 99 mal Wert 0 und einem Wert 10000. Dann wäre der Mittelwert 100, was intuitiv sehr weit weg von 0 wirkt, was der Wert ist, den fast alle Datenpunkte haben. Gleichzeitig ist der Wert effizient zu berechnen und theoretisch gut verstanden, was ihn zu einem wichtigen Tool macht.
Median: Dieses Lagemaß identifiziert die Stelle im Datensatz, so dass 50% der Daten größer als der Wert sind und 50% kleiner. Diesen Punkt zu finden ist etwas komplizierter als beim Mittelwert (wir müssen die Daten sortieren) und man muss etwas vorsichtig sein, weil der Median zwischen zwei Datenpunkten liegen kann und man dann “wählen” kann, welchen Wert man genau als Median bezeichnet. Ein riesiger Vorteil des Medians (gerade im Vergleich zum Mittelwert) ist seine Stabilität gegenüber Ausreißern. Im obigen Beispiel würde der Median 0 ergeben (die ersten 50 Werte sind 0 und danach geht es 49 mit 0 und einmal mit 10000 weiter). Was die Lage der Verteilung viel besser beschreibt als der Mittelwert. Noch besser: Der Ausreißer kann beliebig größer sein und der Median würde sich nicht verändern. Erst wenn die Anzahl an Ausreißern steigt, verschlechtert sich die Performance des Medians.
Modus: Der Modus ist ein weiteres komplementäres Lagemaß und ist gegeben durch die Eigenschaft, dass der Punkt der wahrscheinlichste ist. Diesen Punkt zu identifizieren ist algorithmisch nicht ganz trivial und deswegen ist der Modus am schwierigsten zu berechnen. Dazu kommen philosophischere Fragen wie was der Modus ist, wenn jeder Wert nur einmal vorkommt und dergleichen. Allerdings, wenn man diese Problem adressiert hat, ist der Modus ein sehr robustes Lagemaß, da auch er sich nicht durch einen einzelnen Ausreißer verändert. Erst wenn die Anzahl der Ausreißer größer wird als die Anzahl der Modus-Werte springt er um. Das sollte erst bei viel Rauschen passieren und dann ist sowieso die Frage, ob man mit den Daten noch etwas anfangen kann.

Je nach Anwendung sollte ein geeignetes Lagemaß (oder mehrere) gewählt werden. Wichtig dabei ist, dass kommunziert wird, welche Wahl getroffen wurde. Hier liegt häufig der Hase im Pfeffer. Wenn in einer Veröffentlichung vom “Standard Haushalt” gesprochen wird, ist vermutlich ein Lagemaß gemeint, aber welches? Eine andere häufige Umschreibungen ist der “Otto Normal-Verbraucher” (natürlich ohne gendern xD). Diese Ambiguität kann verwendet werden, um Leser*innen in die Irre zu führen.

Beispielsweise könnte berichtet werden, dass der “Standard PKW” die CO2 Grenzwerte einhält, wobei intern der Modus als Lagemaß verwendet wird, weil vielleicht wirklich die meisten den Grenzwert einhalten. Allerdings könnten die PKWs, die den Grenzwert nicht einhalten vielleicht so dreckig sein, dass der Mittelwert der Flott oberhalb des CO2 Grenzwerts liegt. Für die Berechnung des zukünftigen CO2 Ausstoßes in die Atmosphäre ist aber der Mittelwert maßgeblich. Böse ausgelegt, würde mir als Lesendem suggeriert, dass der Mittelwert niedrig genug ist und damit alles im grünen Bereich ist, obwohl nur der Modus so niedrig ist und der Ausstoß der Flotte gemessen am Mittelwert problematisch ist.

Streuungsmaße

Streuungsmaße geben an wie weit die Datenpunkte verteilt sind. Sagen alle Datenpunkte ungefähr das gleiche oder gibt es große Diskrepanzen? Weit verbreitet dabei sind Varianz und Standard Abweichung (engl. standard deviation, abgekürzt STD oder SD), die eng verwandt sind, und quantil-basierte Größen (wie z.B. den Interquartil-Abstand, engl. interquartile range - IQR). Standard Abweichung und quantil-basierte Größen verhalten sich dabei zueinander ähnlich wie Mittelwert zu Median (Berechnungskomplexität vs. Ausreißer-Stabilität). Auch hier zeigen die obigen Animationen, dass sehr unterschiedliche Datensätze vergleichbare Streuungsmaße aufweisen können.

Zusammenhangsmaße

Zusammenhangsmaße werden verwendet, um zu beschreiben ob bzw. wie stark der Zusammenhang zwischen zwei Größen (z.B. Körpergröße und Körpergewicht) ist. Das bekannteste Maß dabei ist die Korrelation, wobei es von dieser verschiedene Spielarten gibt (z.B. Pearsons Korrelationskoeffizient und die Rangkorrelation). Eine wichtige, aber häufig ignorierte Einschränkung, der gängigen Korrelationen ist, dass diese nur “lineare” Zusammenhänge sicher identifizieren können. Hängt z.B. eine größe quadratisch von der anderen ab, so gibt es Konstellationen in denen die größen als unkorelliert detektiert werden, obwohl sie funktional voneinander abhängen! Auch hier zeigt sich das bekannte Muster, dass die Aggregation mit einem Verlust an Information einhergeht und es wichtig ist sich der Grenzen bewusst zu werden.

Es besteht ein klarer Zusammenhang zwischen den Größen x und y. Allerdings ist die Trendlinie (die die Korrelation anzeigt) waagerecht, was bedeutet, dass die Korrelation zwischen den größen (annähernd) 0 ist.

Neben dieser Limitierung der Korrelation werden wir uns unten mit der Regression zur Mitte, einer weiteren unintuitiven Eigenschaft der Korrelation, befassen.

Leitfragen

Wie können Maß- oder Kennzahlen missbraucht werden?
Eine weitverbreitete Statistik ist: Das 90% (manchmal auch 70% oder 99%) der Autofahrenden glauben, dass sie besser als der “Otto Normal”-Autofahrer fahren. Wir ignorieren für den Moment, welche Metrik man verwenden könnte um die Qualität des Fahrstils zu bewerten. Wenn man als “Otto Normal”-Autofahrer ein Lagemaß einsetzt, für welche Lagemaße (arithmetischer Mittelwert, Median, Modus) ist es mathematisch möglich, dass jeder Autofahrende sich laut dieser Statistik richtig einschätzt?
In der Corporate Corp. steht der nächste Arbeitskampf an. Arbeitnehmenden- und Arbeitgebenden-Vertretung wollen sich auf die ersten Tarifverhandlungen gut vorbereiten und werten Gehaltsdaten aus. Wie könnte die Agenda der beiden Gruppen die jeweilige Wahl der Lagemaße beeinflussen, die sie verwenden, um ihre Argumente am Verhandlungstisch und/oder in der Öffentlichkeit zu kommunizieren?

Regression zur Mitte

Kausalität und Korrelation ist ein Fass für sich. Hier betrachten wir die Korrelation isoliert für sich. Selbst in diesem Fall, beobachtet man zum Teil unintuitives Verhalten. Ein Beispiel dafür ist die sogenannte Regression zur Mitte (engl. Regression towards the mean), die besonders häufig im Sport beobachtet werden kann. Diese könnt ihr mit einem eigenen Experiment erfahren.

Sei es durch Training oder Talent, verschiedene Personen sind zu einem Zeitpunkt und in einer Sportart generell verschieden “sportlich”. Nehmen wir als Beispielsportart das Rückwärtswerfen einer Münze so nah wie möglich an einen vorgegebenen Punkt. Je näher man am Punkt landet desto besser. Wird zweimal geworfen so sollte das Ergebnis der beiden Würfe einer Person korreliert sein, d.h. wer beim ersten Wurf gut war, wird vermutlich auch beim zweiten gut sein.

Falls ihr Zeit und Lust habt, führt das Experiment gerne selbst durch und tragt eure Ergebnisse in dieser Tabelle ein: Untitled. Das Experiment habe ich in Thinking Fast & Slow gefunden.

Anleitung/Leitfragen - Regression zur Mitte Experiment

Markiert zwei Punkte auf dem Boden die min. 1,5 m voneinander entfernt sind. Einer ist der Startpunkt der andere der Zielpunkt.
Stellt euch nacheinander auf den Startpunkt mit dem Rücken zum Zielpunkt und versucht eine Münze so nahe wie möglich an den Zielpunkt zu werfen.
Messt nach jedem Wurf den Abstand der Münze zum Zielpunkt und notiert das Ergebnis in der Tabellenspalte 1. Wurf - Abstand
Nach dem alle einmal geworfen haben, werfen alle nocheinmal. Die neuen Ergebnisse werden unter 2. Wurf - Abstand eingetragen.
Schaut euch die Grafiken in der Tabelle an. Dort werden die Platzierungen (Ränge) der Teilnehmenden nach dem ersten und zweiten Wurf gegeneinander aufgetragen. Was fällt euch auf? (Falls euch nichts auffällt, sprecht mich an 😃)
Was könnten Gründe für eure Beobachtung sein?
Falls ihr Zeit habt, schaut euch jetzt gerne den Wikipedia-Artikel zur Regression zur Mitte an.

Ressourcen

Deskriptive Statistik

Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, empirische Daten (z. B. Ergebnisse aus Experimenten) durch Tabellen, Kennzahlen (auch: Maßzahlen oder Parameter) und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem bei umfangreichem Datenmaterial sinnvoll, da dieses nicht leicht überblickt werden kann.

de.wikipedia.org

Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

Datasets which are identical over a number of statistical properties,...

www.research.autodesk.com

Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

Common Limitations of Image Processing Metrics: A Picture Story

While the importance of automatic image analysis is continuously increasing, recent meta-research revealed major flaws with respect to algorithm validation. Performance metrics are particularly...

arxiv.org

Regression zur Mitte

Regression zur Mitte ist ein Begriff der Statistik; er bezeichnet das Phänomen, dass nach einem extrem ausgefallenen Messwert die nachfolgende Messung wieder näher am Durchschnitt liegt, falls der Zufall einen Einfluss auf die Messgröße hat. Dies gilt immer, wenn die beiden Messungen korrelieren, aber nicht zu 100 %.

de.wikipedia.org