Der Text gibt einen Überblick über die am häufigsten eingesetzten Verfahren zur Berechnung der Reliabilität eines Messinstruments. Ausgehend von der Definition der Reliabilität mit Hilfe der klassischen Testtheorie werden die Voraussetzungen, die zur einer sinnvollen Berechnung der Reliabilität eines Messinstrumentes notwendig sind vorgestellt. Anschließend werden verschiedene Arten der Reliabilitätsberechnung vorgestellt werden.

 

1. Vorbemerkungen

Die nachfolgende Darstellung stellt eine Zusammenfassung einiger zentraler Aspekte der Reliabilitätsberechnung dar. Sie ist eine Synopse der folgenden Bücher und Artikel:

Bühner, M.  (2004). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson.

Fisseni, H.-J. (2004). Lehrbuch der Psychologischen Diagnostik. Göttingen: Hogrefe

Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5(3), 343-355.

Schmidt, F. L & Hunter, J. E. (1998). The validity und utility of selection methods in personnel psychology: Practical and theoretical implicatins of 85 years of research findings. Psychological Bulletin, 124(2), 262-274.

Weise, G. (1975). Psychologische Leistungstests. Göttingen: Hogrefe

2. Definition der Reliabilität

Der Begriff der Reliabilität bezieht sich auf die Präzision bzw. Genauigkeit einer Messung. Damit werden indirekt zwei Punkte angesprochen, nämlich

  1. Reliabilität als die Messgenauigkeit einer Skala  ohne Beachtung des Inhalts, und
  2. Reliabilität als Bestimmung des Messfehlers, mit welchen die einzelnen Werte behaftet sind, ohne Beachtung der Tatsache, ob die Skala auch das misst, was sie zu messen vorgibt (Validität).

Beide Punkte beziehen sich auf den Zusammenhang zwischen dem wahren Wert der Messung und dem Messfehler, mit welchen diese Messung behaftet ist. Dieser Zusammenhang wird durch die Axiome der Klassischen Teststheorie (KTT) hergestellt. Die KTT beinhaltet fünf Axiome:

  1. Ein beobachteter Wert (Messwert) x setzt sich zusammen aus dem wahren Wert t und dem Fehlerwert e: Formel
  2. Der Erwartungswert, der Mittelwert und die Summe der Fehler sind gleich Null: Formel
  3. Fehlerwert und wahrer Wert korrelieren nicht miteinander: Formel
  4. Wahrer Wert und Fehlerwert zweier verschiedener Test A und B korrelieren nicht miteinander: Formel
  5. Die Fehlerwerte zweier unterschiedlicher Tests A und B korrelieren nicht miteinander: Formel

Insbesondere folgt aus dem ersten und zweiten Axiom, dass der Mittelwert der beobachteten Werte dem Mittelwert der wahren Werte entspricht, da
Formel.

Daraus ergibt sich aber auch die Stabilität der wahren Werte, den der einzige Werte, der schwanken kann ist der Messfehler. Insbesondere hat dies zur Konsequenz, dass die die KTT nur dann sinnvoll anwenden lässt, wenn die wahren Werte stabil in der Zeit sind. Die KTT eignet sich somit nicht zur Erfassung von Prozessen oder Verhaltensänderungen.

Aus den Axiomen kann man also zwei mögliche Definitionen der Reliabilität folgern:

  1. Reliabilität als der Quotient der Varianz der wahren Werte und der Varianz der beobachteten Werte,  und
  2. als die Korrelation zweier Paralleltest, oder
  3. als Korrelationen einer Skala mit sich selbst, die zu unterschiedlichen Zeitpunkten mit unterschiedlichen Retest-Intervallen erhoben wurden.

Die erste Definition lautet exakt wie folgt:

Reliabilität rtt ist der Quotient der Varianz der wahren Werte st und der Varianz der beobachteten Werte sx: rtt=st/rx.

Allerdings ist mit Hilfe dieser Definition noch keine Berechnung einer Maßzahl für die Reliabilität möglich, da die Varianz der wahren Werte in aller Regel unbekannt ist. Deswegen ist es erforderlich Methoden zur Reliabilitätsberechnung anzugeben, welche allerdings an einige Voraussetzungen geknüpft sind.

3. Vorraussetzungen zur Berechnung der Reliabilität

Die folgenden Voraussetzungen beziehen nicht auf die Berechnung der numerischen Werte an sich, sondern stellen Voraussetzungen dar, unter denen sich diese numerischen Werte sinnvoll interpretieren lassen. Voraussetzungen sind:

  1. Äquivalenz der Messungen
  2. Homogenität der Messungen

Die Äquivalenz, d. h. Gleichwertigkeit von Messungen, wird durch die wahren Werte und Schätzungen der Messvarianz (z. B. Fehlervarianz) bestimmt. Die Messungen können sich im Mittelwert oder in der Varianz (und natürlich auch ihrer Reliabilität, die aber als betreffendes Merkmal interessiert) unterscheiden. Deswegen unterscheidet man streng parallele, im Wesentlichen parallelen, tau-äquivalenten, im Wesentlichen tau-äquivalenten und kongenerischen Messungen.

Bei parallelen Messungen gilt für die wahren Werte t und t’ und den Fehlern e und e’ zweier Messungen und eine Konstante α

Formel streng parallel,
Formelim Wesentlichen parallel.

Bei streng parallelen Messungen sind die wahren Werte einer Person (bzw. allgemein des Objekts der Messung) in beiden Fällen gleich. Durch die Gleichheit der Fehlervarianzen folgt weiterhin, dass auch die Korrelation beider Messungen eine Schätzung der Reliabilität ist. Ebenso folgt, dass die Korrelation von zwei Skalen, die eine Eigenschaft streng parallel messen mit einem Außenkriterium für jede der Skalen gleich ist und die Reliabilitäten der Skalen auch gleich sind.

Für tau-äquivalente Messungen gilt mit einer Konstanten α

Formel tau-äquivalent,
Formel im Wesentlichen tau-äquivalent.

Für tau-äquivalente Messungen sind die wahren Werte der Messungen gleich, allerdings folgt aus der Unterschiedlichkeit der Messfehlervarianzen in den zur Messung verwandten Skalen, dass die jeweiligen Korrelationen mit einem Kriterium unterschiedlich sind, ebenso die jeweiligen Reliabilitäten. Allerdings sollten die minderungskorrigierten Korrelationen (s. u.) wieder gleich sein.
Für kongenerische Messungen gilt mit den Konstanten α und β

Formel.

Bei kongenerischen Tests sind sowohl die wahren Werte, Mittelwerte, Varianzen, Korrelationen und Reliabilitäten unterschiedlich, auch können die zur Messung verwendeten Skalen unterschiedliche Maßeinheiten aufweisen.

Die Homogenität bezieht sich auf die Fähigkeit der Items einer Skala, ein und dasselbe Merkmal zu messen. Dieses Merkmal ist natürlich nur ein Ideal, dem man sich allerdings annähern kann. Jedes Item beschreibt eine Facette des zu messenden Merkmals und je größer der Überlappungsbereich dieser Facetten ist, desto größer ist die Homogenität der Items. Für uns von Interesse sind zwei Aspekte: Homogenität im Sinn der Interkorrelation der und Homogenität im Sinn der Faktorenanalyse.

Homogenität im Sinn der Interkorrelation bezieht sich auf den Sachverhalt, dass Items die eine große Überlappung des Merkmalsbereichs haben eine hohe Interkorrelation zeigen. Ist die Interkorrelation der Items gering, spricht man von einer heterogenen Skala.

Homogenität im Sinn der Faktorenanalyse meint, dass die Item, die das gleiche Merkmal messen sollen, nur auf einem Faktor laden.

Sind diese Voraussetzungen erfüllt, lässt sich ein numerisch berechneter Reliabilitätsindex sinnvoll interpretieren. Dies geschieht mit bestimmten Verfahren, die im Folgenden ausgezählt werden.

4. Modelle der Reliabilitätsberechnung

Als Modelle zur Berechnung von Reliabilitätskennziffern kennt man

  1. Retest-Reliabilität
  2. Paralleltestreliabilität
  3. Testhalbierungsreliabilität
  4. Schätzungen der internen Konsistenz

Die letzten drei Modelle werden auch als Item-Sampling-Modelle bezeichnet. Bei diesem wird angenommen, dass ein Universum von Items existiert, die alle das gleiche Merkmal beschreiben. Aus diesem Universum werden nun parallele Stichproben von Items und mit diesen Stichproben die jeweilige Art der Reliabilität berechnet. Diese Modelle sind nicht äquivalent, woraus sich ergibt dass die Mitteilung eines Reliabilitätsindex auch die Art der Berechnung dieses Index angibt.

4.1 Retest-Reliabilität

Bei dieser Art der Reliabilitätsberechnung werden bei zwei Messungen jeweils die gleichen Items vorgelegt und diese Messwertreihen anschließend korreliert. Die Retest-Reliabilität ist rechentechnisch also nichts anders als die Korrelation zwischen zwei Messwertreihen.
Allerdings setzt diese Art der Reliabilitätberechnung voraus, dass das zu messende Merkmal über die Zeit stabil ist.

4.2 Paralleltestreliabilität

Bei diesem Modell werden zwei parallele Skalen (also Skalen mit unterschiedlichen Items die aber alle das gleiche Merkmal beinhalten) bei zwei Messungen vorgelegt. Die Paralleltestreliabilität berechnet sich dann aus der Korrelation der Messwerte dieser beiden Messungen.

Die Berechnung der Paralleltestreliabilität setzt voraus, dass die Skalen äquivalent sind. Äquivalenz bedeutet Gleichheit der Werteilungskennwerte wie Mittelwert und Varianz. Darüber hinaus müssen die jeweiligen Reliabilitäten der Skalen (die dann einzelne, etwa mittels einer Schätzung der internen Konsistenz zu ermitteln ist) und die Korrelation der beiden Skalen mit einem Außenkriterium gleich sein.

4.3 Testhalbierungsreliabilität

Bei der Testhalbierungsreliabilität werden die Items, die eine Skala zur Messung eines Merkmals bilden, in zwei parallele Teile (s. o. 3.2) aufgeteilt. Sind in den beiden Hälften die gleiche Anzahl von Items, so lässt sich die Reliabilität nach der Spearman-Brown-Formel berechnen:

Formel Spearman-Brown-Formel

mit r12:= Korrelation der beiden Testhälften.

Sind die beiden Testhälften ungleich groß, führt dies zu einer Unterschätzung der Reliabilität. Um dies zu vermeiden, benutzt man in solchen Fällen zur Berechnung die Formel von Feldt:

Formel Formel von Feldt

mit sx:= Gesamtvarianz der Skala
s1:= Streuung Testhälfte 1
s2:= Streuung Testhälfte 2
r12:= Korrelation der beiden Testhälften.

4.4 Schätzungen der internen Konsistenz

Dieses Schätzmodell knüpft an die Methode der Testhalbierung mit an. Die Idee wird dahingegen erweitert, dass eine Skala nun nicht mehr in zwei Hälfen aufgeteilt wird, sondern jedes Item wird als eigenständiger Test angesehen. Die Skala wird also in so viele Teile aufgeteilt, wie sei Items enthält. Berechnet werden die internen Konsistenzen mittels Cronbach’s α und Guttman’s λ3. Voraussetzung dabei ist die wesentliche tau-äquivalenz der Items. Ist diese Voraussetzung erfüllt, ist Cronbach’s α und Guttman’s λ3 gleich der wahren Reliabilität der Skala. Liegt die Voraussetzung nicht vor, geben die Koeffizienten eine Schätzung der unteren Grenze der wahren Reliabilität an.

Cronbach’s α berechnet sich nach:

Formel Cronbach’s α

mit Formel:= Varianz der Items bzw. Testteile
Formel:= Varianz der Rohwerte
c := Anzahl der Items bzw. Teststeile

Bei der Berechnung von Cronbach’s α ist zu beachten, dass alle Items untereinander positive Kovarianzen bzw. Korrelationen aufweisen müssen. Ein Ausweg ist die Umkodierung der entsprechenden Items, so dass die Kovarianzen bzw. Korrelationen positiv werden oder die Berechnung von Guttman’s λ3, das keine positive Kovarianzen benötigt.

Formel Guttman’s λ3

mit Formel:= Varianz der Items bzw. Testteile
Formel:= Varianz der Rohwerte
c := Anzahl der Items bzw. Teststeile
Formel:= Summe der quadrierten Kovarianz zweier Items, es gilt Formel

5. Faktoren, welche die Reliabilitätsberechnung beeinflussen

Nachfolgend seien noch kurz einige Punkte genannt, welche sich auf die Berechnung der Reliabilität auswirken können:

  1. Homogenität
  2. Testlänge
  3. Streuung der Itemwerte
  4. Messfehler
  5. Homogenität:
    Je homogener die Items einer Skala sind - sich also auf das gleiche Merkmal beziehen, desto höher ist i. a. deren Reliabilität.

Testlänge:
Je mehr homogene Items in einer Skala sind, desto höher fällt deren Reliabilität aus.

Streuung der Itemwerte:
Eine hohe Streuung verbessert i. a. die Reliabilität und eine geringe verringert sie, da die Höhe der Korrelation zwischen den Items von der Streuung abhängt.

Messfehler:
Grundsätzlich lassen sich Messfehler in zufällige und systematische einteilen. Zufällige Fehler sollten sich gegenseitig ausgleichen und in der Summe Null ergeben, siehe auch das zweite Axiom der KTT. Zufällige Fehler dürfen wirken sich also auf das Resultat ein (von Zufallsschwankungen abgesehen), während systematische Fehler das Resultat in geordneter Weise verzerren. Genauer kann man die Fehler einteilen nach:

  1. Zufällige Antwortmessfehler (bspw. bedingt durch unterschiedliche Müdigkeit oder Ablenkbarkeit der Versuchspersonen oder sonstige nicht systematische Einflüsse)
  2. vorübergehende Fehler von Messungen (bezeichnet einen über verschiedene Messungen variierenden Messfehler)
  3. systematische Messfehler (bspw. Übungseffekte oder Antworttendenzen)
  4. spezifische Messfehler (bspw. wenn Personen die Stufen einer Antwortskala in einer für die Person spezifischen Weise unterschiedlich interpretieren)

6. Beurteilung der Höhe von Reliabilitäten

Für die Beurteilung der Höhe von Reliabilitäten gelten folgende Konventionen:

  1. Niedrig: <0,80
  2. Mittel: 0,80-0,90
  3. Hoch: >0,90