Jahnke (2007b) beschreibt die Änderungen nach der Teilnahme an TIMSS und insbesondere PISA als „grundlegende Wende in der deutschen Bildungspolitik.“ (S. 307) Während die – in Relation zu anderen Nationen – schlechten Ergebnisse die mediale und politische Öffentlichkeit dominierten, ging vereinzelte Kritik an dem Messinstrument oder gar dem Messergebnis völlig in dieser Dominanz unter. Die „deskriptiven Befunde“ erscheinen gültiger als jede Theorie, da ihr eine „quasi-naturwissenschaftliche Objektivität“ (ebd.) zugrunde liegt: Bildung kann nun scheinbar objektiv gemessen werden und Steuerungsprozesse können einsetzen, deren Erfolg wiederum gemessen werden kann und so weiter.
In Deutschland wurde bei der arrangierten Veröffentlichung der Ergebnisse der ersten PISA-Studie – wie abgeschwächt schon bei der dritten internationalen Mathematik- und Naturwissenschaftsstudie (TIMSS) – im Wesentlichen nur das Entsetzen über das schlechte Abschneiden der deutschen Schüler im internationalen Vergleich proklamiert. Die wirklichen Ergebnisse, deren Interpretation oder das Messinstrument wurden weder auf Pressekonferenzen noch in den jeweiligen Berichten und Kommentaren den einfachsten Plausibilitätsprüfungen unterzogen. Es wurde keinerlei Anstrengung unternommen diesen komplexen Untersuchungsapparat auch nur im Ansatz zu untersuchen. Ebenso verhielt es sich mit den technischen Details des Tests (Zeitvorgaben, Fragentypus, usw.) und insbesondere die Aussagekraft des Test wurde nicht weiter hinterfragt. Der willkürlich konstruierte Zusammenhang zwischen Erfolg im Bildungsranking und wirtschaftlicher Konkurrenzfähigkeit wurde in den Vordergrund gerückt und erhielt Geltungsanspruch. (vgl. Huisken 2005, S. 13) Jedwede Kritik oder kritische Stimmen wurden medial als untauglichen Versuch abgetan, die deutsche Bildungsmisere zu mindern oder diese sogar ganz zu leugnen. Der Geltungsmacht von PISA waren letztlich Medien als auch Politik gänzlich unterworfen. (vgl. Jahnke 2007b, S. 317)
Im Folgenden soll auf methodische Kritik der PISA-Studie in ihren Ansätzen eingegangen werden, die in den Medien und der öffentlichen Diskussion weitestgehend keine Beachtung fand. Während sich verschiedene Publikationen und insbesondere Hopmann, Brinek & Retzl (2007) mit dem Forschungsprozess, angefangen vom Design und dem Sampling, über die Datenerfassung und Analyse, bis hin zur öffentlichen Präsentation der Daten detailliert auseinandersetzen, soll diese Arbeit zwar vor allem die Auffassungen, Interpretationen und Handlungen der mächtigsten Institutionen und Personen im Bildungsbereich in Deutschland über die Ergebnisse der PISA Studien und die damit einhergehenden Folgen und Auswirkungen für das deutsche Bildungswesen und auch das deutsche Bildungsverständnis behandeln, dennoch soll Kritik am Messinstrument von PISA zumindest skizzenhaft dargestellt werden.
In dem Sammelband „PISA zufolge PISA“ (Hopmann, Brinek & Retzl 2007) kommen länderübergreifend achtzehn Forscherinnen und Forscher im Bezug auf den gesamten Forschungsprozess zu dem Schluss:
„Das PISA-Projekt ist offenkundig mit so vielen Schwachstellen und Fehlerquellen belastet, dass sich zumindest die populärsten Endprodukte, die internationalen Vergleichstabellen sowie die meisten nationalen Zusatzanalysen zu Schulen und Schulstrukturen, Unterricht, Schulleistungen und Problemen wie Migration, sozialer Hintergrund, Geschlecht usw., in den bisher praktizierten Formen wissenschaftlich schlicht nicht aufrechterhalten lassen. Sie überspannen bei weitem die Tragfähigkeit des gewählten Designs und dessen theoretische und methodische Grundlagen. Wer auf dieser Grundlage über Schulstrukturen, Lehrpläne, nationale Tests oder die zukünftige Lehrerbildung befinden will, ist nicht gut beraten.“ (Hopmann, Brinek & Retzl, 2007, S. 2)
Besonders aufschlussreich ist Gjert Langfeldts Forschungsansatz, der die Artikel verschiedener europäischer Bildungsforscher zusammengetragen und analysiert hat. Dabei sei es nicht leicht eine einheitliche Grundlage der Kritiken zu finden, da PISA in einem drei-Jahres-Zyklus durchgeführt wird und jeweils einen anderen Schwerpunkt untersucht[11]. Deshalb werden die verschiedenen Artikel der europäischen Bildungsforscher unter zwei methodischen Gesichtspunkten untersucht und gegliedert:
Zuverlässigkeit. Das internationale Bildungsranking ist das ausschlaggebende Instrument von PISA, das das öffentliche Interesse geweckt hat. Die vermeintlichen Disparitäten zwischen den Ländern, die berichtet wurden, hatten weitreichende Veränderungen – insbesondere in Deutschland – nach sich gezogen. Deshalb ist es natürlich von Belang, ob die berichteten Unterschiede eine fundierte und zuverlässige Forschungsgrundlage haben. Gibt es in der internationalen Literatur etwa Hinweise oder Bedenken, die den Ergebnissen des PISA-Tests eine Unzulänglichkeit und Unzuverlässigkeit unterstellen?
Validität. Es gibt verschiedene Themen, die unter dem Aspekt der Validität der Daten von PISA in der internationalen Literatur diskutiert werden. Der hier angelegte Blickwinkel kann so begründet werden: Derzeit nehmen an PISA 65 Länder teil (Stand 2012; vgl. OECD 2013, S. 3). Welchen Sinn könnte es machen diese so zu vergleichen, dass deren erzielte Ergebnisse in Form eines Bildungsrankings präsentiert werden? Theoretisch: Wie kann man eine legitime Grundlage finden, um verschiedene Nationen miteinander zu vergleichen? Im Zusammenhang damit steht auch die Annahme, dass die Testergebnisse der Schüler ein Indikator für die Schulqualität darstellen, die wiederum als Grundlage für die Qualität des nationalen Bildungssystems herangezogen werden kann. Der dritte Aspekt in der Diskussion um die Validität von PISA sind die Folgerungen, die aus den Ergebnissen gezogen werden. Kann man ein Schulsystem auf der Basis von Ergebnissen einzelner Schüler beurteilen?
Zur Zuverlässigkeit beziehungsweise Repräsentativität sind sich viele europäische Forscher einig, dass die Forschungsgrundlage 15-jähriger Schülerinnen und Schüler ein großes Problem darstellt, da sich zwar viele dieser Schüler in Klassen mit anderen 15-jährigen Schülerinnen und Schülern befinden, andere hingegen eine Klasse wiederholt haben und deshalb in Klassen mit hauptsächlich 14-Jährigen oder gar 13-Jährigen lernen. Wieder andere könnten auch eine Klasse übersprungen haben und sich mit 16-Jährigen in einer Klassenstufe befinden. Prais (2004, S. 571) hat herausgestellt, dass sich sogar fast die Hälfte der 15-Jährigen nicht in der ihrem Alter entsprechenden Klasse befinden.
Des Weiteren ist es in einigen der verglichenen Länder nicht unüblich, dass viele 15-Jährige bereits die Schule verlassen haben. Damit profitieren – im PISA-Kontext – einige Nationen davon, dass bereits bis zu 60% ihrer Schüler vor dem Erreichen des 15. Lebensjahres die Schule verließen.
Auch Wuttke (2006, S. 105 f.) kritisiert das Sample der PISA-Erhebungen, indem er darauf aufmerksam macht, dass bei der Auswahl der Stichprobe normalerweise die Größe der Schule berücksichtigt wird, diese jedoch von einigen Ländern nicht dokumentiert ist und deshalb alle Schüler das gleiche statistische Gewicht erhalten.
Weiterhin ist die Sample-Qualität auch deutlich durch den variierenden Anteil an Lernbehinderten verzerrt. Dieser reicht von 0,7% in der Türkei bis zu 7,3% in Spanien oder den USA. (vgl. Langfeldt 2007, S. 230)
Betrachtet man die methodologischen Einwände der europäischen Publikationen, sollte dringend eine methodologische Diskussion auf einer höheren Ebene stattfinden. Es ist ebenfalls wichtig, dass die Forschung Einfluss auf die öffentliche Debatte zur Qualität von Bildung nimmt.
Die Validität ist laut Definition eine Frage der Qualität von gezogenen Rückschlüssen. (vgl. ebd., S. 231) Im PISA-Kontext wird es folgendermaßen beschrieben: ‚A total judgement rests on an holistic assessment of whether the empirical evidence and the theoretical framework form a sufficient basis to justify the actions and the consequences that are drawn from the test scores.‘ (ebd. S. 232) Diese Definition beschreibt im Kern die Qualität von Tests wie PISA: Sind die Auswirkungen von PISA durch eine solide Basis von Theorie und Daten begründet?
Erst aus dieser Perspektive wird der Aspekt der Reliabilität relevant. Die Validität übergeht eigentlich systematische Fehler, weil diese ebenso aus einer mangelhaften Theorie oder dem unzureichenden Zusammenhang zwischen Theorie und Daten entstehen können. Laut Langfeldt (ebd.) können die Meinungen der europäischen Forscher zur Validität in drei Argumenten zusammengefasst werden: die kulturelle Prägung (cultural bias), die Skalierung und Interpretation der PISA-Punktzahlen.
Der kulturelle Aspekt wird von vielen verschiedenen europäischen Forschern genannt. Es stellt sich bei dem PISA-Ranking beziehungsweise dem gesamten PISA-Programm die Frage, ob es überhaupt einen länderübergreifenden Bildungsstandard geben...