Glossar

Statistische Maßzahlen

Liegen Daten xi zu einem quantitativen Merkmal vor, lässt sich die darin enthaltene Information übersichtlich in so genannten statistischen Maßzahlen zusammenfassen. Man unterscheidet Lagemaße und Streuungsmaße.
 
Lagemaße charakterisieren den Durchschnittswert von Daten.

Die bekanntesten Lagemaße sind der arithmetische Mittelwert :
und der empirische Median .

Zur Berechnung des empirischen Medians müssen die Daten der Größe nach geordnet werden, d. h.,  man geht von der Urliste der Daten x1,x2,...,xn zur Rangliste x(1)<=x(2)<=...<=x(n)über, indem man die Daten der Größe nach ordnet; (i) heißt Rangzahl. Die Rangzahl gibt den Platz auf der Rangliste an. (1) ist die Rangzahl des kleinsten Wertes, (n) ist die Rangzahl des größten Wertes. Der empirische Median ist der Wert "in der Mitte" der Rangliste, d.h.

falls n ungerade,

und

falls n gerade.

Oft verwendet man für ein gerades n auch die Formel

Beim Vergleich von Mittelwert und empirischem Median stellt man fest, dass man zur Berechnung des Mittelwertes alle Daten x1, x2, ..., xn vollständig kennen muss, während zur Berechnung des empirischen Medians grob gesprochen die erste Hälfte der Rangliste der Daten ausreicht.

Hat man z. B. eine Stichprobe vom Umfang n=3 und kennt x1=2, x2=4 und von x3 weiß man nur, dass es größer ist als x2=4, dann kann man den Mittelwert nicht angeben, aber für den empirischen Median gilt ,

gleichgültig wie groß x3 ausfällt.

Aus dieser Beobachtung folgt, dass der empirische Median robust ist gegenüber Ausreißern. Dieser Sachverhalt wird bei der Auswertung von Überlebenszeiten noch eine Rolle spielen.
 
Man kann den empirischen Median auch mit Hilfe der empirischen Verteilungsfunktion Fn definieren.
 
Fn gibt für jedes x auf der Zahlengeraden an, wie groß der Anteil der Daten ist, die kleiner oder gleich x sind. Für x(1), den kleinsten Wert, gilt

- aber nur,  falls alle Daten voneinander verschieden sind - für x(n), den größten Wert, gilt

Damit ist der empirische Median der kleinste Wert, für den gilt

Entsprechend definiert man mit Hilfe der empirischen Verteilungsfunktion als weitere Lagemaße die so genannten empirischen Quantile xp(0 < p < 1):xp ist der kleinste Wert, für den gilt: Fn(xp) >= p. Insbesondere werden x0.25 und x0.75 betrachtet. x0.25 heißt 1. Quartil, x0.75 3. Quartil. In dieser Terminologie ist der empirische Median das 2. Quartil

In Analogie zur Berechnung des Medians werden die Quartile oft folgendermaßen berechnet. Die gesamte Rangliste wird in zwei Hälften geteilt. Das erste Quartil ist der Wert "in der Mitte" der ersten Hälfte der Rangliste, d. h. die Hälfte der halbierten Messreihe ist kleiner bzw. größer als das erste Quartil. Analog wird das 3. Quartil berechnet. Das oben beim Median erwähnte Verfahren, bei geraden Anzahlen den Mittelwert der Rangwerte (n/2) und (n/2+1) zu verwenden, wird oft auch bei der Quartilsberechnung benutzt.  
 
Streuungsmaße sind Maßzahlen für die Abweichung der Messwerte vom Durchschnittswert. Die bekanntesten Streuungsmaße sind die empirische Varianz s2

und die empirische Standardabweichung

Wegen des Quadrierens lässt sich die empirische Varianz als Zahlwert anschaulich kaum interpretierten, während sich die empirische Standardabweichung grob als mittlere Abweichung der Daten von ihrem Mittelwert deuten lässt.
 
Als weitere Streuungsmaße betrachtet man die empirische Spannweite R (engl.: range):

und den empirischen Interquartilsabstand

Die empirische Spannweite ist offenbar extrem ausreißerempfindlich, der empirische Interquartils-abstand ist ein stabileres Streuungsmaß.
 
Mit dem Adjektiv "empirisch" bei den Maßzahlen, soll betont werden, dass sich diese Maßzahlen tatsächlich aus der Stichprobe berechnen lassen. Später sollen sie den analogen Maßzahlen der Grundgesamtheit gegenübergestellt werden, die sich zumeist nicht berechnen lassen. Vielmehr werden die empirischen Maßzahlen der Stichprobe als Schätzwerte für die theoretischen Maßzahlen der Grundgesamtheit dienen. Wenn aus dem Zusammenhang ersichtlich ist, ob die Grundgesamtheit oder die Stichprobe gemeint ist, soll in Zukunft das Adjektiv empirisch entfallen.
 
Beispiel 1.16
In Tabelle 1.5 finden Sie für 16 weibliche Patienten einer klinischen Studie die Angaben zur Körpergröße in cm. Die Daten liegen in Form einer Rangliste vor, d. h. sie sind bereits aufsteigend sortiert.

Tabelle 1.5: Körpergröße von 16 Patienten

Lfd. Nr. i Größe xi xi-x (xi-x)2 empirische Verteilungsfunktion F16(xi)
1 155 -10.1875 103.785 1/16 = 0.0625
2 158 -7.1875 51.660
3 158 -7.1875 51.660 3/16 = 0.1875
4 159 -6.1875 38.285 4/16 = 0.2500
5 162 -3.1875 10.160 5/16 = 0.3125
6 165 -0.1875 0.035
7 165 -0.1875 0.035
8 165 -0.1875 0.035
9 165 -0.1875 0.035 9/16 = 0.5625
10 166 0.8125 0.660
11 166 0.8125 0.660 11/16 = 0.6875
12 167 1.8125 3.285 12/16 = 0.7500
13 170 4.8125 23.160
14 170 4.8125 22.160 14/16 = 0.8750
15 176 10.8125 116.910
16 176 10.8125 116.910 16/16 = 1
Summe 2643 0.0000 540.437

Aus den Werten der Tabelle 1.5 erhält man die folgende grafische Darstellung der empirischen Verteilungsfunktion.

Abbildung 1.5: Empirische Verteilungsfunktion für das Merkmal "Größe"

Aus den Werten der Tabelle 1.5 erhält man die folgenden Lagemaße und Streuungsmaße.
 
Lagemaße

empirisches Minimum                           xmin = 155

empirisches 0.25-Quantil (1. Quartil)    x0.25 = 159

alternativ                                               0.5 * (x(4) + x(5)) = 160.5

empirischer Median (2. Quartil)             = 165

alternativ                                                x0.5 = 165

empirisches 0.75-Quantil (3. Quartil)      x0.75 = 167

alternativ                                                0.5 * (x(12) + x(13)) = 168.5

empirisches Maximum                           xmax = 176

Mittelwert                                               = 165.1875

Streuungsmaße
 
empirische Spannweite (Range)            R = xmax - xmin = 21

empirischer Interquartilsabstand            q = x0.75 - x0.25 = 8

empirische Varianz                

empirische Standardabweichung