Phi-Koeffizient
Haben zwei Variablen jeweils nur zwei Ausprägungen, so handelt es
sich um dichotome Variablen. Man
unterscheidet natürlich dichotome und
künstlich dichotome Variablen.
Von natürlicher Dichotomie sprechen wir dann, wenn eine
Variable nominalskaliert ist
und von Hause aus nur zwei
Ausprägungen hat (Beispiel: Rauchen Sie - Ja, Nein; Geschlecht -
männlich, weiblich).
Unter künstliche
Dichotomie versteht man, dass eine Variable ursprünglich intervallskaliert und normalverteilt ist und erst im Nachhinein
in zwei Klassen eingeteilt wurde (Beispiel: zwei Altersklassen).
Haben wir nun zwei dichotome Variablen, von denen mindestens
eine natürlich dichotom ist, so lässt sich zwischen beiden ein Zusammenhang
errechnen mit Hilfe des so genannten Phi-Koeffizienten.
Beispiel: Betrachten wir die beiden natürlich
dichotomen Variablen Geschlecht (m, w) und Rauchen (ja,
nein). Unsere Daten bestehen aus folgenden beiden Zahlenkolonnen:
Geschlecht
Rauchen Sie?
m
Ja
m
Ja
w
Nein
w
Ja
m
Nein
usw.
Zur Berechnung des Phi-Koeffizienten benötigen wir zunächst
eine zweidimensionale Häufigkeitstabelle.
Denken Sie zurück an unsere ersten einfachen,
eindimensionalen Häufigkeitstabellen.
Rauchen Sie?
|
Wert |
Häufigkeit |
Prozent |
Ja |
1 |
14 |
46.7 |
Nein |
2 |
16 |
53.3 |
|
Gesamt |
30 |
100.0 |
Eine zweidimensionale Häufigkeitstabelle ist nun
nichts anderes als eine nochmalige Untergliederung der Frage
"Rauchen Sie?" nach dem Geschlecht, also:
m
w
Randsumme
JA
20(a)
10(b)
30
NEIN
30(c)
40(d)
70
Randsumme
50
50
100 (TOTAL)
Man nennt eine solche Anordnung von Häufigkeiten auch eine
2 mal 2 Felder-Tafel.
Man beachte: der Wurzelausdruck entspricht dem
Produkt der Randsummen!!!
PHI = 0,22
Interpretation des Phi-Koeffizienten:
Um diesen Korrelationskoeffizienten sinnvoll
interpretieren zu können, müssen wir uns in Erinnerung rufen, welchen
Sinn die Berechnung einer Korrelation eigentlich hat. Wir
wollen aufgrund der Werte der einen
Variablen die Werte der anderen
Variablen voraussagen.
Wie müsste nun unsere zweidimensionale
Häufigkeitstabelle beschaffen sein, damit wir von der
Eigenschaft, Raucher zu sein oder nicht, auf
die Eigenschaft, männlich oder weiblich zu sein,
schließen können?
Stellen Sie sich vor alle Raucher wären männlich und
(!) alle Nichtraucher wären weiblich. In diesem
Falle könnte man einfach aufgrund der Ausprägung der
Variable "Rauchen Sie" auf das Geschlecht schließen.
Haben wir die Frage "Rauchen Sie?" beantwortet, so wüssten
wir bei einer perfekten Korrelation automatisch das
Geschlecht. Nur in diesem Falle hätten wir eine
perfekte Korrelation, also eine Korrelation = 1!
Alle Raucher sind männlich bedeutet: Es gibt keine rauchenden
Frauen. Alle Nichtraucher sind weiblich bedeutet: es gibt keine nicht rauchenden
Männer. Was dies für das Erraten des Geschlechts aufgrund der Variable Rauchen
bedeutet, kann folgendes Beispiel illustrieren, wobei ich hoffe, dass Sie sich
dabei amüsieren ;-)
Stellen Sie sich vor, wir würden über den ganzen Hörsaal eine
Segelplane aufspannen und an jeder Stelle, an der sich ein Student bzw. eine
Studentin befindet, wäre ein kleines Loch als Dunstabzug. Einer von uns würde
nun oben auf dieser Segelplane herumspazieren (vorausgesetzt, die Plane ist
genug stabil dafür).
Wären nun alle Raucher männlich und alle Nichtraucher weiblich,
so wäre es ein leichtes, das Geschlecht des jeweiligen Studieren unter dem
Dunstabzug zu erraten: Überall dort, wo ein Rauch aufsteigen würde, wäre ein
männlicher Student und unter allen Löchern, aus denen kein Rauch aufstiege,
befände sich eine Studentin!
Die Voraussage ist aber nur solange perfekt, als auch tatsächlich
kein einziger männlicher Student Nichtraucher wäre UND keine einzige
Studentin rauchen würde.
Wie müsste nun eine derartige zweidimensionale
Häufigkeitstabelle beschaffen sein, damit sie diese Voraussetzung überhaupt
erfüllen kann?
Versuchen wir zunächst, alle Raucher in
dem Feld "männlich" (keine Raucher im Feld
weiblich!) und alle Nichtraucher in dem Feld
"weiblich" (keine Nichtraucher im Feld männlich) unterzubringen.
(Denken Sie daran, dass in unserer gesamten Untersuchung 30 Raucher und
70 Nichtraucher vorkommen):
|
m |
w |
Randsumme |
JA |
30(a) |
0(b) |
30 |
NEIN |
0(c) |
70(d) |
70 |
Randsumme |
30(50) |
70(50) |
100(TOTAL) |
Diese Tabelle ist aber falsch. In Klammern stehen die richtigen
Angaben, wie sie sich aufgrund unserer empirischen Untersuchung ergeben haben
(nämlich eine Verteilung beim Geschlecht von 50:50). Richtig dagegen ist, dass
wir einen Anteil von 30 Rauchern und 70 Nichtrauchern
haben(macht in der Gesamtsumme 100 befragte Personen),
aufgrund den Häufigkeiten in den vier Feldern müssten wir jedoch auch einen gleichen Anteil von Frauen und Männern haben, um einen perfekten Zusammenhang von der Variable „Rauchen“ und dem „Geschlecht“ überhaupt erzielen zu können!
Wir bräuchten also auch 30 Frauen und 70 Männer, um
überhaupt zu einer perfekten Korrelation zu kommen!
Allgemein gilt: Damit eine perfekte Korrelation überhaupt möglich
ist, muss das Verhältnis der Ausprägungen der Variablen x gleich
sein dem Verhältnis der Ausprägungen der Variable y
(Beispiel: 30: 70 beim Geschlecht und ex aequo bei der Frage "Rauchen
Sie?")
Nun sind aber die Randsummen bereits durch die
Stichprobenerhebung festgelegt. Wir haben eben in unserem
Kollektiv von 100 Personen zufällig 30 Raucher und 70
Nichtraucher erwischt, die sich auf 50 Frauen und 50 Männer
verteilen!
Welches maximale Phi können wir daher aufgrund der
vorgegebenen Randsummen bekommen?
Bringen wir wieder alle Raucher unter
der Rubrik "männlich" unter. Sind alle
Raucher männlichen Geschlechts, so gibt es 0 Personen weiblichen
Geschlechts, die rauchen.
Umgekehrt müssten alle Nichtraucher weiblichen
Geschlechts sein. Es dürften also keine nicht rauchenden Männer
geben. Das geht sich aber aufgrund der Randsummen nicht aus.
Wir können aufgrund der vorgegebenen Randsummen nur danach
trachten, möglichst wenige Frauen bei den Rauchern bzw. umgekehrt
möglichst viele Frauen bei den Nichtrauchern unterzubringen, also:
|
m |
w |
Randsumme |
JA |
30(a) |
0(b) |
30 |
NEIN |
20(c) |
50(d) |
70 |
Randsumme |
50 |
50 |
100(TOTAL) |
Dies ist - aufgrund der vorgegebenen Randsummen - der
bestmögliche Zusammenhang, den wir bei einer Verteilung von 30 :
70 bei den Rauchern bzw. von 50 : 50 beim Geschlecht
bekommen können. Wir wissen in dem konkreten Fall zwar, daß
jemand, der Raucher ist, auch männlichen Geschlechts
sein muss (es gibt in dieser Verteilung keine rauchenden
Frauen),
alle Raucher sind zwar Männer, aber das umgekehrte ist
nicht der Fall: Wissen wir von jemandem, dass er Nichtraucher ist, so ist
eine exakte Zuteilung zu einem bestimmten Geschlecht nicht möglich. Auf unser
obiges Beispiel mit der Segelplane bezogen bedeutet dies nun, dass wir aus
einer solchen Tabelle (die wir ja nur konstruiert haben, um den maximal
möglichen Zusammenhang zu erzielen) folgendes herauslesen können: Steigt
irgendwo ein Rauch auf, so wissen wir mit Sicherheit, dass es ein Mann sein
wird (da alle unsere 30 Raucher männlichen Geschlechts sind). Wo aber kein
Rauch aufsteigt, können wir nur einen Trend ablesen: dass es sich nämlich eher
um einen Frau als einen Mann handeln wird (die 70 Nichtraucher sind
mehrheitlich weiblich, nämlich insgesamt 50).
Der langen Rede kurzer Sinn: Wir können im Falle der vorliegenden
Randsummen nur einen Trend zwischen der Frage "Rauchen
Sie?" und dem Geschlecht feststellen. Eine exakte Voraussage ist
dahingegen schon aufgrund der empirisch vorgegebenen Randverteilung gar nicht
möglich.
Kodieren wir die Ausprägungen der beiden
natürlich dichotomen Variablen mit "0" und
"1", so entspricht der Phi-Koeffizient
rechnerisch dem Produkt-Moment-Koeffizienten. Phi wird manchmal
daher auch als Vier-Felder-Produkt-Moment-Korrelation bezeichnet.