Verfahren zur
Überprüfung von Zusammenhangshypothesen Wir haben uns bisher mit Unterschiedshypothesen beschäftigt (Unterschiede von Stichproben in Bezug auf abhängige Variablen). Im Folgenden geht es um Zusammenhangshypothesen, d.h. um die Frage inwiefern Änderungen einer Variablen Rückschlüsse auf die Änderungen einer anderen Variablen zulassen. Wozu brauchen wir das? Es geht darum,
die Werte der zweiten Variablen aufgrund der Werte der
ersten Variablen voraussagen zu können. Nennen wir
die ersten Werte x-Werte und die zweiten Werte die y-Werte. Die
Frage ist nun, inwiefern sich die y-Werte aufgrund der x-Werte
voraussagen lassen. Unsere Voraussage wird umso zutreffender sein,
je stärker der Zusammenhang zwischen y-Werten und x-Werten
ist. Dazu benötigen wir ein Maß für den Zusammenhang. Betrachten wir dazu das folgende Beispiel: Stellen Sie sich
vor, Sie müssten aufgrund eines Eignungstests die Begabung eines Schülers
in Mathematik feststellen. Sie würden dazu eine Punkteskala
verwenden, wobei wenige Punkte wenig Begabung und mehr
Punkte mehr Begabung bedeuten würden. Je besser nun diese
Punkte die späteren Schulnoten in Mathematik
voraussagen können, umso stärker ist der Zusammenhang
zwischen dem Eignungstest in Mathematik und den späteren Schulnoten. Man kann zwei verschiedene Arten von
Zusammenhängen unterscheiden: funktionale Zusammenhänge, die
aufgrund einer mathematischen Funktionsgleichung exakte
Voraussagen ermöglichen und stochastische Zusammenhänge, bei
denen nur eine ungefähre Voraussage möglich ist. Betrachten wir zum besseren Verständnis zunächst
eine einfache Funktionsgleichung: Wir können uns den exakten mathematischen Zusammenhang an einer einfachen Tabelle verdeutlichen:
Überträgt man diese Zahlenpaare in ein Koordinatensystem, so erhalten wir eine Gerade mit dem Anstieg 2 (d.h.: gehen wir eine Einheit in die x-Richtung, so müssen wir zwei Einheiten in die y-Richtung gehen) und dem Abschnitt auf der y-Achse 3. (wenn x = 0 ist, dann ist y = 3) Man erhält diese Gerade auch dann, wenn man einfach zwischen zwei Zahlenpaaren, die Punkte im Koordinatensystem darstellen, eine Verbindung herstellt. Im Falle eines derartigen exakten funktionalen Zusammenhangs
brauchen wir die y-Werte nicht extra angeben, denn sie lassen sich ja aus den
x-Werten mit Hilfe der Funktionsgleichung eindeutig berechnen. Das heißt:
Kennen wir die x-Werte und haben wir zudem die Geradengleichung, dann
können wir mit mathematischer Exaktheit die y-Werte voraussagen. Wäre der Zusammenhang zwischen Eignungstest und Schulnoten derart
mathematisch exakt, dann könnten wir uns die späteren Prüfungen in
Mathematik ersparen. Nun zum stochastischen Zusammenhang: Auch beim stochastischen Zusammenhang bilden wir zunächst die Zahlenpaare in einer Tabelle. Beispiel:
Die Zahlenpaare sind nichts anderes als die
Werte der beiden Variablen pro Person, wobei jede Zeile
die beiden jeweiligen Werte einer Person enthält. Man kann nun auch
diese Zahlenpaare in einem Koordinatensystem eintragen. Jedem
Zahlenpaar entspricht ein Punkt in dem Koordinatensystem und jeder der Punkte
bezeichnet die beiden Messwerte für die zwei Variablen pro Person. Im Unterschied zum funktionalen Zusammenhang
bilden die Punkte keine Gerade, sondern streuen um eine
Gerade (oder um eine andere mathematische Funktion!). Wir haben es hier mit einem
stochastischen bzw. korrelativen Zusammenhang zu tun. Die
Punkte streuen rein zufällig um die Gerade (oder um
eine andere mathematische Funktion). Je näher die
Punkte sich zur Gerade befinden, umso eher lässt sich der
stochastische Zusammenhang durch einen linearen funktionalen
Zusammenhang erklären. Die Gerade, um die die Punkte streuen,
ist also eine künstliche Idealisierung des stochastischen Zusammenhangs,
u.zw. eine Darstellung des stochastischen Zusammenhangs durch einen
linearen. Eine derartige Streuung der Punkte bezeichnet man auch als Streuungsdiagramm oder auch als Punktediagramm.
Wir brauchen nun ein Maß, das uns besagt, wie eng die
Punkte um eine idealisierte Gerade streuen. Ein derartiges
Maß ist die Kovarianz. Die Berechnungsformel dafür ist:
Die Kovarianz ist der Mittelwert der
Abweichungsprodukte einer bivariaten Verteilung. Sie besagt den Grad des
miteinander Variierens zweier Verteilungen. Überlegen wir uns dies an zwei Beispielen: 1) Wir gehen zunächst davon aus, dass eine Zunahme
in der y-Richtung sich annähernd aus
einer Zunahme in der x-Richtung erklären lässt.
Höhere x-Werte ziehen höhere y-Werte nach sich. Umgekehrt
ziehen niedere x-Werte auch entsprechend niedere y-Werte nach
sich. Im idealen Falle lässt sich dies durch eine Geradengleichung
ausdrücken. Beispiel: Im Falle eines stochastischen Zusammenhanges liegen
die Zahlenpaare nicht exakt auf einer Gerade, sondern streuen zufällig
um die Gerade. Liegen die Punkte nun sehr nahe an der
Gerade, so ergibt sich der folgende Umstand: Liegen die x-Werte über ihrem Mittelwert (d.h. haben wir
es mit überdurchschnittlich hohen x-Werten zu tun), so
liegen auch die y-Werte über ihrem Mittelwert. Wir bekommen so ein hohes
positives Produkt. (da sowohl bei x-Werten als auch bei y-Werten
eine überdurchschnittliche Abweichung vorliegt). Liegen die x-Werte unter ihrem Mittelwert, so liegen auch
die y-Werte unter ihrem Mittelwert. Wir bekommen auch hier
ein hohes positives Produkt (zwei Zahlen mit negativen
Vorzeichen ergeben multipliziert ein positives Vorzeichen). 2) Wir gehen davon aus, dass eine Zunahme in der
y-Richtung sich durch eine Abnahme in der x-Richtung
erklären lässt. Niedere x-Werte ziehen in diesem Falle hohe
y-Werte nach sich. Umgekehrt ziehen hohe x-Werte niedere
y-Werte nach sich. Im idealen Falle bekommen wir folgende
Geradengleichung: Betrachten wir dazu folgende Tabelle:
Im Falle eines stochastischen Zusammenhanges liegen
die Zahlenpaare nicht exakt auf einer Gerade, sondern streuen zufällig
um die Gerade. Liegen die Punkte nun sehr nahe an der
Gerade, so ergibt sich der folgende Umstand: Liegen die x-Werte über ihrem Mittelwert (d.h. haben wir
es mit überdurchschnittlich hohen x-Werten zu tun), so liegen
die entsprechenden y-Werte unter ihrem Mittelwert. Wir bekommen so
ein hohes negatives Produkt. Liegen die x-Werte unter ihrem Mittelwert, so
liegen die entsprechenden y-Werte über ihrem Mittelwert. Wir
bekommen auch hier ein hohes negatives Produkt (zwei Zahlen mit verschiedenen
Vorzeichen ergeben multipliziert ein negatives Vorzeichen). Das Vorzeichen der Kovarianz sagt also nichts über die Stärke
des Zusammenhanges aus, sondern nur etwas über die Polung des
Zusammenhanges. Eine negative Kovarianz sagt uns, dass eine
Erhöhung der x-Werte zu einer Verminderung der y-Werte führt, eine
positive Kovarianz sagt uns umgekehrt, dass eine Erhöhung der
x-Werte auch zu einer Erhöhung der y-Werte führt. Was sagt uns dann etwas über die Stärke des
Zusammenhanges aus? Die Höhe der absoluten Zahl - ohne Vorzeichen! Nun ist aber die Kovarianz auch vom
verwendeten Maßstab der Variablen abhängig. Multiplizieren wir
beispielsweise die y-Werte mit dem Faktor 10, so erhalten wir auch
eine um den Faktor 10 multiplizierte Kovarianz, obwohl sich am
Zusammenhang nichts geändert hat! Allgemein gilt: Werden die x-Werte mit dem Faktor k und die y-Werte mit dem Faktor l multipliziert, so ändert sich die Kovarianz um den Faktor k * l! Beispiel für eine
Berechnung der Kovarianz:
Kovarianz = 40 / 5 = 8 (durchschnittliches Abweichungsprodukt) s2x = 100 / 5 = 20; sx = 4,47 s2y = 20 / 5 = 4; sy = 2 Multiplizieren wir die y-Werte mit dem Faktor 10 (30; 50; 70; 60; 90), so erhalten wir eine Kovarianz von 80! Dividieren wir die
Kovarianz nun durch die Standardabweichungen sx und sy,
so erhalten wir ein Zusammenhangsmaß, das gegenüber
Maßstabsveränderungen invariant ist! Dieses Maß ist der
Korrelationskoeffizient r, auch Produkt-Moment-Korrelation
(Bravais-Pearson-Korrelation) bezeichnet: In
unserem Beispiel: Beispiele für Zusammenhänge: 1) hohe positive Korrelation
2) hohe negative Korrelation
Man beachte, dass die Begriffe "positiv" bzw.
"negativ" sich nicht auf die Stärke des Zusammenhangs - diese wird
durch den Absolutbetrag von r ausgedrückt -, sondern auf die Polung
des Zusammenhangs beziehen. 3) Nichtlineare Zusammenhänge: Beispiel: parabolischer Zusammenhang
Zum besseren Verständnis der Bedeutung des
Produkt-Moment-Korrelationskoeffizienten folgende Überlegung: Was
würde geschehen, wenn wir im Falle eines solchen parabolischen Zusammenhanges
den Produkt-Moment-Korrelationskoeffizienten berechneten? Die - vorläufige – Antwort lautet: Wir bekämen ein niedriges r! Der Grund dafür ist der
folgende: Der Produkt-Moment-Korrelationskoeffizient berechnet den Abstand der
Zahlenpaare von einer idealen Geraden. Er ist daher ein Maß
für die Stärke des linearen Zusammenhanges. Ist
nun der Zusammenhang nicht linear (wie im Falle eines parabolischen
Zusammenhanges), so besagt das noch lange nicht, dass überhaupt
kein Zusammenhang besteht. Ein niedriges r sagt uns also nur, dass keine
Geradengleichung sinnvoll die y-Werte aus den x-Werten
voraussagen kann. Das bedeutet aber nicht automatisch, dass
es keine andere mathematische Funktion gibt, die
uns eine gute Voraussage ermöglicht. Allgemein gilt: Wir können prinzipiell für jede beliebige
Anordnung von Punkten eine mathematische Funktion
finden, die den Zusammenhang in einer
Funktionsgleichung (keine Geradengleichung!) beschreibt. Warum tut man das aber nicht? Warum versucht man den
Zusammenhang zwischen den Zahlenpaaren durch eine idealisierte Funktion
(durch eine Gerade oder auch eine Parabel oder
ähnliches) auszudrücken? Dies hat einen wissenschaftstheoretischen Grund. Die
Psychologie versucht - wie jede andere Wissenschaft -
empirisch gegebene Daten auf einfache,
durchschaubare und leicht handhabbare Gesetze zurückzuführen. So ist es für uns
eben eine Information, wenn wir den Zusammenhang zwischen x-Werten und y-Werten
durch eine Geradengleichung ausdrücken können. Die
Geradengleichung ist ein intuitiv verstehbares Modell des
Zusammenhangs. Zusammenfassend gilt für den Produkt-Moment-Korrelationskoeffizienten:
Er ist ein Maß für die Stärke der Linearität des
Zusammenhangs. Liegen alle Punkte tatsächlich auf einer Geraden, so
erhalten wir ein r von 1. Ballen sich die Punkte um eine Punktwolke, so erhalten wir ein r
= 0. Zu niederen x-Werten finden sich in diesem
Falle einmal hohe, zugleich aber auch niedere y-Werte (die Summe
der Die beste Voraussage ist in diesem Falle eine
Parallele zur x-Achse. Allgemeine Voraussetzungen zur Berechnung von r: 1) Intervallskaliertheit beider Variablen 2) die bivariate Häufigkeitsverteilung sollte normalverteilt sein (das entspricht einer Glocke im dreidimensionalen Raum) Zur allgemeinen Bedeutung
der Korrelation: 1) kein funktionaler, deterministischer Zusammenhang
- sondern stochastischer Zusammenhang 2) keine Kausalbeziehung: Das bedeutet: Wenn zwischen x und y eine hohe positive Korrelation vorliegt, so
wissen wir nicht, ob a) x y beeinflusst b) y x beeinflusst c) x und y von einer dritten Variable beeinflusst werden d) x und y sich wechselseitig beeinflussen Die Korrelation sagt lediglich, dass wir eine mathematische
Funktion gefunden haben, die annähernd den Zusammenhang von x und y
beschreibt. Warum aber dieser Zusammenhang besteht, ist
damit nicht beantwortet. Man betrachte das folgende Beispiel: Man kann rein statistisch einen Zusammenhang zwischen der
Fußzehengröße und der Intelligenz feststellen. Der Grund hierfür liegt einfach
daran, dass bei einer Zufallsstichprobe auch Kleinkinder miterfasst
werden. Der Zusammenhang zwischen Intelligenz und
Fußzehengröße lässt sich somit auf eine dritte Variable zurückführen: auf das
Alter! Halten wir das Alter konstant (indem wir beispielsweise für die Korrelation zwischen Intelligenz und Fußzehengröße nut Gleichaltrige heranziehen), so verschwindet die Korrelation zwischen Fußzehengröße und Alter. Inferenzstatistische
Absicherung Auch bei der
inferenzstatistischen Absicherung von Zusammenhanghypothesen gibt es eine Null-
und eine Alternativhypothese. Die
Nullhypothese lautet: es besteht kein Zusammenhang zwischen den
beiden Variabeln. Inferenzstatistisch betrachtet bedeutet dies,
dass wir in der Gesamtpopulation ein ρ = 0 erwarten. Wir berechnen also
wie wahrscheinlich es ist, unter Geltung der Nullhypothese das berechnete r
(oder ein noch stärker von 0 abweichendes) zu bekommen. Ist diese Wahrscheinlichkeit
sehr gering (Signifikanzniveau entweder 5% oder 1%), so entscheidet man sich
für die Alternativhypothese. Um die
Überschreitungswahrscheinlichkeit zu berechnen, wandeln wir den r-Wert in einen
t-Wert um: Dieser t-Wert
wird nun mit dem kritischen t-Wert der t-Tabelle mit n-2
Freiheitsgraden verglichen – ist t >= tkritisch so entscheiden
wir uns für die Alternativhypothese. Das bedeutet in
unserem Beispiel Da terrechnet
≥ tkritisch entscheiden wir uns für die H1. 2. Regression Bis jetzt haben wir lediglich besprochen, wie man die
Linearität des Zusammenhangs zweier Variablen mit Hilfe des Produkt-Moment-Korrelationskoeffizienten
berechnen kann. Das Maß r sagt uns, wie sehr die stochastisch (zufällig)
verteilten Punkte um eine idealisierte Gerade streuen. Die
Frage ist nun, ob wir diese Gerade unter Zuhilfenahme des Maßes r
rechnerisch genau ermitteln können. Die Frage ist also, um welche Gerade
es sich denn eigentlich handelt. Allgemein gilt: Jede Gerade ist mathematisch durch
die Geradengleichung festgelegt. Die Geradengleichung kennen wir bereits: b ist der
Anstieg der Geraden, a ist der Abschnitt auf der y-Achse (die
Stelle, an der die Gerade die y-Achse schneidet, bzw. an der x = 0 ist). Wollen wir also die idealisierte Gerade für eine bestimmte
Punktwolke ermitteln, so benötigen wir deren Koeffizienten a und b. Nun hat die idealisierte Gerade
folgende Eigenschaft: Jedem beobachteten y-Wert (yi)
entspricht ein geschätzter y-Wert (y*i) auf
der Gerade.
Die geschätzten und die beobachteten y-Werte weichen
voneinander ab, da die Gerade ja nur eine Schätzung des Zusammenhangs
ist. Da wir daran interessiert sind, die y-Werte aus den x-Werten
vorherzusagen, ist es für uns wichtig, die einzelnen Abweichungen der Punkte in
der y-Richtung möglichst klein zu halten. Wir sind also an einer
idealen Geraden interessiert, die den Vorhersagefehler möglichst minimiert.
Wir fordern für die idealisierte Gerade: die Summe der
quadrierten Abweichungen (in y-Richtung) der beobachteten von den
geschätzten Werten soll ein Minimum bilden. Wir wollen
also durch die Punkte eine Gerade durchgelegen, die am
idealsten die y-Werte schätzt. Den Anstieg dieser Geraden und ihren Abschnitt auf
der y-Achse (die Koeffizienten b und a) lassen sich mit der Differentialrechnung
(Extremwertrechnung) ermitteln. Wie dies im Einzelnen bestimmt wird, ist hier nicht von weiterem Interesse
und wird daher in diesem Kontext vorausgesetzt. Die Bestimmung der
Koeffizienten b und a erfolgt jedenfalls wie folgt: Haben wir r (den Produkt-Moment-Korrelationskoeffizienten
zwischen den beiden Variablen x und y) sowie
die jeweiligen Standardabweichungen sx und sy
berechnet, so lassen sich aus diesen drei
Größen die Steigung der gewünschten Gerade b rein rechnerisch
wie folgt ermitteln: In unserem Beispiel: r = 0.89;
sy = 2; sx = 4.47
Der Abschnitt auf der y-Achse a wird so berechnet:
Daraus ergibt sich
folgende Geradengleichung: Eigenschaften dieser Geraden und der um sie streuenden Punkte: - Die beobachteten Werte streuen um die Gerade. Die Streuung erfolgt so, dass die Summe der quadrierten Abweichungen der beobachteten Werte zu den geschätzten Werten ein Minimum ergibt. - Der Mittelwert der geschätzten y-Werte ist gleich dem Mittelwert
der beobachteten y-Werte ( - Die Varianz der beobachteten Werte ist die Summe der
Varianzen der geschätzten Werte und der Varianz der Abweichungen.
Anders gesagt: Die Abweichung eines Messwertes yi vom
Mittelwert der y-Werte ( Verdeutlichen wir uns diesen wichtigen
Umstand an folgendem Beispiel:
s2y = 4 s2y* = 16/5 = 3,2 s2(Streuung der y-Werte um die Gerade) = 4/5 = 0,8 s2y = s2y* + s2(Streuung
der y-Werte um die Gerade) Das bedeutet: der
Abstand eines einzelnen y-Wertes vom Mittelwert der y-Werte setzt sich zusammen
aus dem Abstand dieses y-Wertes von seinem geschätzten y-Wert und dem Abstand
des geschätzten y-Wertes vom Mittelwert der y-Werte. Der Anteil der Varianz, der durch
die Regressionsvoraussage aufgeklärt wird, lässt sich nach der Formel r2 * 100 (= Determinationskoeffizient) berechnen. r = 0,89 heißt: 0,892 * 100 = 79 % der Varianz wird durch die
Regressionsvoraussage aufgeklärt. Das heißt anders ausgedrückt: Wie viel sind 3,2 von 4? Ca. 80%! Ist r = 1, so werden 100% aufgeklärt (dann ist die Streuung der Punkte um die Gerade = 0) Anhang
Von „http://de.wikipedia.org/wiki/Students_t-Verteilung“ |