Im Vorfeld einer Untersuchung gilt es festzulegen mit welchen Mitteln und in welcher Umgebung sie durchgeführt werden soll. Das Umfeld der Befragung kann einen erheblichen Einfluss auf deren Ergebnisse haben.
Möglich erscheint eine Befragung in einer ‚Alltagssituation‘. Hier werden die Probanden in einer natürlichen Umgebung mit den Testanzeigen konfrontiert. Solch eine Befragung ‚vor Ort‘, also beispielsweise in einem Kaufhaus, kann allerdings auch eine gewisse Problematik bergen. Die Menschen befinden sich eventuell in Eile oder können die Bitte, den Fragebogen auszufüllen einfach nicht ablehnen, obwohl sie eigentlich keine Lust dazu haben. Dies kann zu einer ungenauen Beachtung der Fragen und zu einer Verzerrung der Ergebnisse führen (vgl. Schnell et al. 1999, S. 216f.).
Bei einem Laborexperiment hingegen fühlen sich die Teilnehmer oftmals beobachtet und geben aufgrund der ungewohnten Situation möglicherweise extremere Werte an.
Aus diesen Gründen scheint für die vorliegende Untersuchung eine Onlinebefragung geeigneter. Das Argument, lediglich jüngere Personen nutzen das Internet, kann nicht mehr bestätigt werden. Der Anteil der Internetnutzer lag im ersten Quartal 2007 in Deutschland bei 94% bei den 10-24-jährigen und immer noch bei 84% bei den 25-54-jährigen (vgl. Internetquelle 6). Deshalb kann sehr wohl von einer Onlinebefragung auch auf die Grundgesamtheit der Bevölkerung geschlossen werden.
Allerdings gibt es auch bei dieser Befragungsart gewisse Nachteile: Teilnehmer einer Online-Umfrage sind eventuell abgelenkt, weil sie nebenbei noch etwas anderes machen und die Fragen dabei nicht richtig beachten. Um diesem Problem entgegenzuwirken kann die Richtung der Statements variiert werden, wodurch sich ein einfaches ‚Herunterkreuzen‘ herausfiltern lässt.
Des Weiteren ist bei einer Online-Befragung nicht zu überwachen, wer den Bogen tatsächlich ausfüllt und ob die persönlichen Angaben korrekt sind. Dies sollte aber ein vernachlässigbarer Aspekt sein, da eine Online-Umfrage stets anonym ist und eigentlich keine Anreize einer Falschangabe bestehen. Die vorliegende Studie vereint die Online-Umfrage mit einer Befragung in Alltagssituationen, da der Rücklauf einer Online-Umfrage schlechter steuerbar ist.
Als Befragungsart wird in der Studie eine ‚schriftliche Befragung‘ (vgl. Friedrichs 1990, S. 236) gewählt. Es bekommen alle Testpersonen aus einer Gruppe exakt denselben Fragebogen, wobei die Fragen bereits vorab konkret ausgearbeitet und in eine sinnvolle Reihenfolge gebracht wurden. Durch die Standardisierung des Fragebogens soll sichergestellt werden, dass keine verschiedenen Interpretationsmöglichkeiten durch die Auskunftspersonen bestehen. Dies ist besonders wichtig, da in der späteren Auswertung verschiedene Gruppen miteinander verglichen werden.
Der Begriff der Skalierung wird in der gängigen Literatur auf verschiedene Weisen definiert. Berekoven sieht darin sowohl die Konstruktion von Messskalen, als auch die Zuordnung von Zahlen zu Objekten und Eigenschaften (vgl. Berekoven et al. 2001, S. 72).
Durch Vorlage einer Skala sollen die Testpersonen ihre Stimmungen und Eindrücke besser ausdrücken können, als dies mit Worten der Fall wäre (vgl. Schuller, Keppler 1999, S. 65).
Die Skalierung der Statements im Fragebogen beeinflusst Reliabilität und Validität gleichzeitig: Je mehr Abstufungen die Skala hat, desto geringer wird die Reliabilität aufgrund erhöhter Fehlmöglichkeiten, während die Validität der Ergebnisse durch exaktere Messmöglichkeiten erhöht wird (vgl. Böcker et al. 1987, S. 246). Somit gilt es einen Kompromiss zu finden, da die Skalierung auf die Messung der Variablen entscheidenden Einfluss nehmen kann.
Mit einer Ratingskala, die eine ungerade Anzahl an Auswahlmöglichkeiten bietet, bleibt es den Versuchspersonen freigestellt, neutrale Aussagen zu treffen. Ferner ergab eine Studie einen höheren Anteil an verweigerten Antworten bei geraden Ratingskalen (vgl. Stadtler 1983, S. 117ff.). Zudem sollte darauf geachtet werden, dass die Diskriminationsfähigkeit, also das Unterscheidungsvermögen der befragten Personen, nicht überstrapaziert wird. Nach Berekoven kann davon allerdings erst ab acht Abstufungen ausgegangen werden (vgl. Berekoven et al. 2001, S. 76). Eine neuere Untersuchung von Unterreitmeier belegt eine Überlegenheit der sieben-Stufen-Skala, da hier trotz der Chance neutrale Antworten zu geben, eher Tendenzen in eine bestimmte Richtung zu erkennen sind (vgl. Unterreitmeier 2003, S. 70f.).
Eine 7-stufige Ratingskala bietet somit mehrere Vorteile: Die Auskunftspersonen können ihre Meinung differenziert zum Ausdruck bringen, wobei zugleich eine noch überschaubare Anzahl an Abstufungen klare Tendenzen erkennen lässt.
Zur weitgehenden Gewährleistung einer exakten und fehlerfreien Messung sind gewisse Ansprüche zu stellen: Die Messung sollte den Kriterien der Reliabilität, Validität und Objektivität genügen (vgl. Berekhoven et al. 2001, S. 86). Im Folgenden werden diese Gütekriterien zunächst allgemein erläutert, bevor darauf bezugnehmend die Variablen dieser Studie beleuchtet werden.
Als Gütekriterium gibt die Reliabilität an, wie verlässlich die durchgeführte Messung ist, also inwieweit das Objekt bei wiederholten Messungen die gleichen Werte liefert (vgl. Schnell et al. 1999, S. 145). Am besten ließe sich dies überprüfen, indem denselben Auskunftspersonen einige Wochen später der gleiche Fragebogen vorgelegt wird und beide Ergebnisse miteinander verglichen werden. Eine hohe Zuverlässigkeit der Messung kann angenommen werden, wenn dann die Aussagen der betroffenen Person eng beieinander liegen. Wird die Befragung an zufällig ausgewählten Personen durchgeführt, ist hierfür nötig sich die Adressdaten der Auskunftspersonen geben zu lassen, um sie einige Zeit später erneut zu befragen. Diese so genannte Test-Retest Methode ist jedoch sehr zeit- und kostenintensiv.
Alternativ kann die Reliabilität mittels des Koeffizienten „Cronbachs Alpha“ geprüft werden. Dieser Test baut auf der „split-half“ Methode auf, bei der das zu prüfende Instrument in zwei Hälften aufgeteilt wird. Alpha ist der Mittelwert aller möglichen „split-half“-Koeffizienten und wird aus den Korrelationen aller Items untereinander berechnet (vgl. Schnell et al. 1999, S. 145f.).
Validität bezeichnet die Genauigkeit von Testverfahren, also inwieweit das gemessen wird, was erfasst werden soll (vgl. Berekhoven et al. 2001, S. 88).
Ein kurzes Beispiel verdeutlicht den Unterschied zur Reliabilität: Mehrere Personen, die einen Fragebogen ausfüllen, könnten wiederholt im selben Maße zustimmende Antworten geben, ohne sich über den Inhalt der Frage Gedanken zu machen. Damit kann zwar eine hohe Reliabilität (wiederholte Messungen erbringen dasselbe Ergebnis), jedoch noch keine Validität (es wird nicht gemessen, was gemessen werden soll) gegeben sein. In der Literatur wird häufig zwischen drei Formen der Validität unterschieden: Inhalts-, Kriteriums- und Konstruktvalidität. Da sowohl die Inhalts- als auch die Kriteriumsvalidität kaum anwendbar sind, wird im weiteren Verlauf nur noch auf die Konstruktvalidität eingegangen, die in den Sozialwissenschaften von großer Bedeutung ist (vgl. Schnell et al. 1999, S. 148).
Als Konstrukt wird ein nicht direkt messbarer Sachverhalt innerhalb einer wissenschaftlichen Theorie bezeichnet. Deshalb werden diese auch latente Variablen genannt.
„Ein Test ist konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können“ (Bortz, Döring 1995, S. 186), folglich die Ergebnisse des Tests mit den aus Theorie oder Empirie abgeleiteten Hypothesen konform sind. Dabei ist die Konstruktvalidität als umso höher einzuschätzen, je mehr Hypothesen bestätigt werden können (vgl. Bortz, Döring 1995, S. 186f.). Kann ein zuvor angenommener Zusammenhang nicht nachgewiesen werden, muss nicht unbedingt mangelnde Konstruktvalidität angenommen werden. So wäre es ebenso möglich, dass die verwendete Hypothese falsch oder die empirische Untersuchung selbst fehlerhaft ist (z.B. durch Rechenfehler) (vgl. Schnell et al. 1999, S. 151).
Eine Quantifizierung der Validität kann wie bei der Reliabilität durch Korrelationskoeffizienten vorgenommen werden. Eine höhere Validität spiegelt sich dabei in einer höheren Korrelation wieder (vgl. Bortz, Döring 1995, S186f.).
Die Objektivität als drittes Kriterium der Gütemessung bezieht sich auf die Unabhängigkeit der Messung vom Untersuchungsleiter, wobei zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität unterschieden wird (vgl. Berekhoven et al. 2001, S. 86).
Dem Kriterium der Durchführungsobjektivität kann dadurch entsprochen werden, dass...