Glossar

Grundlagen des statistischen Tests

Das Prinzip des statistischen Tests wurde schon in Beispiel 3.9 erwähnt. Eine vorgegebene Annahme (Nullhypothese H0) wird anhand von Daten überprüft. Wenn die Daten "stark" von dem abweichen, was man unter der Nullhypothese erwartet, lässt man die Nullhypothese fallen.

Im statistischen Test wird dieses plausible Vorgehen formalisiert.

Nachdem die Nullhypothese H0 und die Alternativhypothese H1 so formuliert sind, dass sie sich gegenseitig ausschließen und keine dritte Möglichkeit zulassen, ergibt sich das einfache Entscheidungsschema der Tabelle 4.1.

Tabelle 4.1: Entscheidungsschema beim statistischen Test

Testentscheidung Wirklichkeit H0 Wirklichkeit H1
H0 richtig Fehler 2. Art
H1 Fehler 1. Art richtig

Der Fehler 1. Art ist der Fehler, die Nullhypothese zu verwerfen, obwohl sie richtig ist.

Der Fehler 2. Art ist der Fehler, die Nullhypothese zu behalten, obwohl sie falsch ist.

Die Entscheidung, H0 zu verwerfen oder zu behalten, wird von der Realisation der Zufallsvariablen abhängig gemacht, die man als Teststatistik gewählt hat. Hierfür kommt im Prinzip jede Zufallsvariable in Frage, deren Verteilungsfunktion unter der Nullhypothese bekannt ist. Die Realisation der Teststatistik nennt man auch Prüfgröße des Tests.

In der Wahl der geeigneten Teststatistik liegt die eigentliche Kunst des Testens. Im folgenden werden mit dem Vorzeichentest und dem Wilcoxontest zwei einfache Beispiele gegeben, die das allgemeine Prinzip erläutern sollen. Abschnitt 4.3 enthält weitere spezielle Tests.

Der Wertebereich der Teststatistik wird in zwei Teilmengen zerlegt, den Verwerfungsbereich und den Annahmebereich. Wenn die Prüfgröße in den Verwerfungsbereich fällt, wird die Nullhypothese verworfen, ansonsten wird sie behalten.

Da die Verteilungsfunktion der Teststatistik unter der Nullhypothese bekannt ist, kann man den Verwerfungsbereich so wählen, dass unter H0 seine Wahrscheinlichkeit unter einen vorgegebenen Wert α fällt. α, das sogenannte Signifikanzniveau des Tests, ist damit die Obergrenze für die Wahrscheinlichkeit, den Fehler 1. Art zu begehen. α wird vom Versuchsleiter vorgegeben. Übliche Werte für α sind 0.05, 0.01 und 0.001. Welches α man wählt, hängt von den Konsequenzen ab, die der Fehler 1. Art hat. Der naheliegende Wunsch, α = 0 zu wählen, scheitert daran, dass dann ß, die Wahrscheinlichkeit für den Fehler 2. Art, groß wird.

Man überlegt sich leicht, dass man α = 0 erreicht, wenn man die Nullhypothese immer behält. Aber dann behält man sie auch, wenn sie falsch ist, und erhält ß = 1.

α und ß sind die Irrtumswahrscheinlichkeiten des Tests. Es ist im Allgemeinen nicht zu erreichen, dass die Verteilungsfunktion der Teststatistik auch unter der Alternativhypothese bekannt ist. Daher lässt sich ß nicht genauso behandeln wie α. Man hat für ß nur die unbefriedigende Obergrenze

ß < 1 - α

Das hat zur Folge, dass die Entscheidung 'H0 behalten' möglicherweise mit einer großen Irrtumswahrscheinlichkeit behaftet ist. Daher interpretiert man diese Entscheidung meist im Sinne eines Unentschiedens und sagt 'H0 kann nicht verworfen werden'.

Beispiel_4.1

Es wird vermutet, dass eine bestimmte Behandlung einen Einfluss auf den Hämoglobinwert (Hb) eines Patienten hat. Um dies zu überprüfen, wird bei einer Stichprobe von 10 Patienten, die sich dieser Behandlung unterziehen müssen, der Hämoglobinwert unter standardisierten Bedingungen vor und nach der Behandlung bestimmt (Tabelle 4.3).

Die Formulierung von Null- und Alternativhypothese lautet:
          
H0: Die Behandlung hat keinen Einfluss auf den Hb.
          
H1: Die Behandlung beeinflusst den Hb.

In Tabelle 4.2 ist die Entscheidungssituation dargestellt.

Tabelle 4.2: Entscheidungssituation beim speziellen Test

Testentscheidung:
Der Hb ...
Wirklichkeit: der Hämoglobinwert Hb ... Wirklichkeit: der Hämoglobinwert Hb ...
wird nicht beeinflusst wird beeinflusst
...wird nicht beeinflusst richtig Fehler 2. Art
...wird beeinflusst Fehler 1. Art richtig

Die Entscheidung ist richtig, wenn die Testentscheidung mit der Wirklichkeit übereinstimmt.

Der Fehler 1. Art bedeutet, dass die Nullhypothese verworfen wird, obwohl sie richtig ist. Der Fehler 2. Art bedeutet, dass die Nullhypothese nicht verworfen wird, obwohl sie falsch ist.

Beim statistischen Test gibt man eine obere Schranke a (z. B. α = 0.05) für die Wahrscheinlichkeit des Fehlers 1. Art vor und versucht, nach dieser Vorgabe die Wahrscheinlichkeit ß für den Fehler 2. Art möglichst klein zu halten.

Im Allgemeinen wächst die Wahrscheinlichkeit des Fehlers 2. Art, wenn man die des Fehlers 1. Art verkleinert. Die beschriebene Behandlung der Fehlerwahrscheinlichkeiten hat zur Folge, dass die Wahrscheinlichkeit für den Fehler 1. Art unter Kontrolle ist ( α), die für den Fehler 2. Art aber nicht. Wenn die Nullhypothese fallen gelassen werden muss, kann nur der Fehler 1. Art auftreten. Die Fehlerwahrscheinlichkeit ist unter Kontrolle. Das Testergebnis darf entsprechend sicher formuliert werden ("H0 kann auf dem vorgegebenen Signifikanzniveau α verworfen werden").

Wenn die Nullhypothese nicht fallen gelassen werden darf, kann möglicherweise der Fehler 2. Art auftreten. Die Fehlerwahrscheinlichkeit ist nicht unter Kontrolle. Das Testergebnis muss entsprechend vorsichtig formuliert werden ("kein Widerspruch zur Nullhypothese").

Der Versuchsleiter muss vor der Durchführung des Versuchs entscheiden, wie die Fragestellung als Alternative für den statistischen Test formuliert werden soll. Diese Entscheidung erfolgt nicht unter statistischen Gesichtspunkten, sondern aufgrund inhaltlicher Überlegungen.

Beispiel 4.2

Zur Behandlung einer bestimmten Erkrankung stehen zwei Medikamente A und B zur Verfügung, die beide in der Praxis angewandt werden. Im einfachen Fall einer qualitativen Zielgröße, die nur die Ausprägungen Erfolg und Misserfolg hat, ist es naheliegend, den Anteil pA der Patienten, die mit Medikament A erfolgreich behandelt werden, mit dem entsprechenden Anteil pB bei Medikament B zu vergleichen.

Hat der Versuchsleiter a priori keine Vorkenntnisse darüber, ob pA größer, kleiner oder auch gleich pB ist, prüft er zweckmäßig die Alternative

H0: pA = pB

H1: pA ≠ pB

Abbildung 4.1: Zweiseitige Alternative

Man nennt diese Alternative zweiseitig, weil die interessierende Differenz pA-pB der Erfolgswahrscheinlichkeiten unter H1 sowohl positiv als auch negativ sein kann. 
Ist aufgrund inhaltlicher Überlegungen von vornherein klar, dass pB mindestens gleich pA ist, aber größer sein könnte, prüft man zweckmäßig die Alternative
 
H0: pA ≥ pB

H1: pA ≥ pB .
 
Abbildung 4.2: Einseitige Alternative

Man nennt diese Alternative einseitig, weil die interessierende Differenz pA-pB der Erfolgswahrscheinlichkeiten unter H1 nur auf einer Seite der möglichen Werte sein kann.