Wenn zum Beispiel eine Gruppe von Studenten einen Test macht, würde man erwarten, dass sie sehr ähnliche Ergebnisse zeigen, wenn sie denselben Test einige Monate später machen. Diese Definition setzt voraus, dass es in dem dazwischen liegenden Zeitintervall keine Störfaktoren gibt.
Instrumente wie IQ-Tests und Umfragen eignen sich hervorragend für die Test-Retest-Methodik, da die Wahrscheinlichkeit gering ist, dass Personen einen plötzlichen IQ-Sprung erleben oder ihre Meinung plötzlich ändern.
Andererseits sind Bildungstests oft nicht geeignet, da die Schüler in der dazwischen liegenden Zeit viel mehr Informationen lernen und im zweiten Test bessere Ergebnisse erzielen.
Test-Retest-Reliabilität und der Zahn der Zeit
Wenn zum Beispiel eine Gruppe von Schülern kurz vor Ende des Semesters einen Geographietest macht und einen, wenn sie zu Beginn des nächsten Semesters in die Schule zurückkehren, sollten die Tests im Großen und Ganzen die gleichen Ergebnisse liefern.
Werden der Test und die Wiederholungsprüfung hingegen zu Beginn und am Ende des Semesters durchgeführt, so kann davon ausgegangen werden, dass der dazwischen liegende Unterricht die Fähigkeiten der Schüler verbessert hat. Daher ist die Test-Retest-Zuverlässigkeit beeinträchtigt, und andere Methoden, wie z. B. Split-Tests, sind besser geeignet.
Selbst wenn ein Test-Retest-Zuverlässigkeitsverfahren ohne Anzeichen für intervenierende Faktoren angewandt wird, wird immer ein gewisses Maß an Fehlern vorhanden sein. Die Wahrscheinlichkeit ist groß, dass sich die Probanden an einige Fragen aus dem vorherigen Test erinnern und besser abschneiden.
Einige Probanden hatten beim ersten Mal einfach einen schlechten Tag oder haben den Test nicht ernst genommen. Aus diesen Gründen können Schüler, die eine Prüfung wiederholen müssen, mit anderen Fragen und einer etwas strengeren Benotung rechnen.
Auch bei Umfragen ist es durchaus denkbar, dass sich die Meinung stark ändert. Es kann sein, dass die Leute nach ihrer Lieblingsbrotsorte gefragt wurden. Wenn ein Brotunternehmen in der Zwischenzeit eine lange und umfangreiche Werbekampagne durchführt, ist es wahrscheinlich, dass dies die Meinung zugunsten dieser Marke beeinflusst. Dies gefährdet die Test-Retest-Reliabilität und damit die Analyse, die mit Vorsicht zu genießen ist.
Test-Retest-Reliabilität und Störfaktoren
Um der Test-Retest-Reliabilität ein Element der Quantifizierung zu geben, statistische Tests berücksichtigen dies bei der Analyse und ergeben eine Zahl zwischen 0 und 1, wobei 1 eine perfekte Korrelation zwischen Test und Wiederholungstest bedeutet.
Eine perfekte Korrelation ist nicht möglich, und die meisten Forscher akzeptieren einen niedrigeren Wert, entweder 0,7, 0,8 oder 0,9, je nach Forschungsgebiet.
Damit lassen sich jedoch Störfaktoren nicht vollständig ausschalten, und ein Forscher muss diese bei der Planung der Forschung vorhersehen und berücksichtigen, um die Test-Retest-Reliabilität zu erhalten.
Um das Risiko zu verringern, dass einige wenige Probanden die Ergebnisse aus welchen Gründen auch immer verfälschen, ist der Korrelationstest bei großen Probandengruppen sehr viel genauer, so dass die Extreme übertönt werden und ein genaueres Ergebnis erzielt wird.