4. Kapitel Automatisierte Itemgenerierung: Aktuelle Ansätze, Anwendungen und Forschungen (S. 215-216)
Martin Arendasy und Markus Sommer
1 Einleitung
In Zeiten häufig eingesetzter psychologischer Testverfahren (Schuler, 2000) und der damit einhergehenden, immer weniger kontrollierbaren Verbreitung von Testmaterialien wird dem Aspekt der Testsicherheit und der Validität von Testverfahren immer größere Bedeutung beigemessen werden müssen. Um beidem konstruktiv zu begegnen, wird die Automatisierte Itemgenerierung (AIG, Irvine & Kyllonen, 2002) besonders relevant.
1.1 Testsicherheit
Unter dem relativ breiten Konzept der Testsicherheit können all jene Aspekte subsumiert werden, die dem Schutz von Testmaterialien vor unkontrollierter, nicht intendierter Verbreitung von Testmaterialien dienen. Bezüglich des Qualitätsmanagements wird versucht, den Zugang zu und die fachgerechte Verwendung von psychologischen Testverfahren zu steuern (vgl. Hornke & Winterfeld, 2004). Darüber hinaus werden zunehmend spezielle Softwareprodukte eingesetzt, mit deren Hilfe dem Diebstahl und dem Kopieren von Items während eines Online-Assessments vorgebeugt werden kann (Edelblut, Elliot, Mikulas & Bosley, 2002). Schon zu Beginn der 1980er Jahre wurden erste Versuche unternommen, die Testsicherheit durch den Einsatz von „computergestützen adaptiven Tests“ (CAT) zu erhöhen (vgl. Sands, Waters & McBride, 1997, Wainer, 2000, van der Linden & Glas, 2000). Der grundlegende Gedanke war, dass der umfangreiche Itempool eines CAT deutlich schlechter erinnert werden kann, als die Items eines konventionellen linearen Tests mit fester Itemreihenfolge (Green, 1983). CATs erfordern jedoch einen möglichst umfangreichen Pool an Items, die bereits in vorangehenden Erprobungen mithilfe von Item-Response- Theorie-Modellen (IRT-Modellen) wie dem einparametrischen logistischen Modell (1PLM, im Folgenden als Rasch-Modell bezeichnet, Rasch, 1980) oder dem zweiparametrischen logistischen Modell (2PLM, Birnbaum, 1968) kalibriert sein müssen. Dies erhöht nicht nur die finanziellen Kosten und zeitlichen Aufwendungen der Testkonstruktion, sondern stellt auch deutlich erhöhte Anforderungen an die Itemkonstruktion. In den folgenden Jahren wurde jedoch immer deutlicher, dass beim adaptiven Testen bestimmte Items aus dem umfangreichen Pool häufiger verwendet werden als andere. So kommt beispielsweise Wainer (2000) zu dem Schluss, dass bei CAT und Anwendung des klassischen Maximum-Information-Auswahl-Algorithmus 15 bis 20 % der Items innerhalb eines Pools immerhin rund 50 % der tatsächlich administrierten Items darstellen. In Abhängigkeit von der Größe des Itempools stellt dies ein mehr oder weniger großes Problem für die Testsicherheit dar.
Zu bedenken ist hierbei jedoch, dass sich die Items eines Pools – abhängig von der Verteilung der Itemparameter in einem Pool – hinsichtlich ihrer „Overexposure“ zum Teil drastisch unterscheiden. Vor allem die Items in der Startphase eines CAT mit einem fixen Startitem scheinen besonders stark von dieser Overexposure betroffen zu sein. Aufgrund dieser Overexposure einzelner Items ist die tatsächlich genutzte Größe des Itempools ungleich kleiner als sein Gesamtumfang. Um Overexposure zu kontrollieren, wurden in der Folge verschiedene Item-Exposure-Control-Algorithmen entwickelt (z. B. Sympson & Hetter, 1985, Stocking & Lewis, 2000). Wenngleich das Problem der Overexposure durch die Anwendung dieser Algorithmen kompensiert werden kann, zeigen aktuelle Studien (Yi, Zhang & Chang, 2006), dass mithilfe von Item-Exposure-Control-Algorithmen immer noch kein hinreichender Schutz vor einem möglichen Itemdiebstahl gewährleistet werden kann. Die Gefahr, dass Items aus dem Pool entwendet und an Dritte verkauft werden, reduziert drastisch ihre Verwertbarkeits- bzw. „Lebensdauer“. Um die Testsicherheit dennoch zu gewährleisten, müssen Itempools in regelmäßigen Abständen durch neu konstruierte, konstruktgleiche und kalibrierte Items ersetzt werden. Dies erhöht die Anforderungen an die Itemgenerierung weit über den Prozess der initialen Konstruktion des Itempools hinaus. Aufgrund der Kosten, die mit der anfänglichen Entwicklung, Kalibrierung und der späteren Wartung und Aktualisierung des Itempools verbunden sind, entstand in den letzten Jahren ein zunehmendes Interesse an verschiedenen Ansätzen der Automatisierten Itemgenerierung (AIG) mit deren Hilfe Items mit weitgehend bekannten Itemparametern konstruierbar sein sollen (für einen Überblick vgl. Irvine & Kyllonen, 2002). An die AIG sind verschiedenste Erwartungen geknüpft: (1) Reduktion der Entwicklungskosten für ein einzelnes Item durch den Einsatz von Generatoren, mit deren Hilfe eine große Anzahl an Items automatisch erzeugt werden kann, und (2) Reduktion der Kalibrierungskosten.