Sie sind hier

E-Book

Einstieg in die Datenanalyse mit SPSS

Autor	Marco Schuchmann
Verlag	Books on Demand
Erscheinungsjahr	2016
Seitenanzahl	172 Seiten
ISBN	9783741257704
Format	ePUB
Kopierschutz	Wasserzeichen
Geräte	PC/MAC/eReader/Tablet
Preis	6,49 EUR

Dieses Buch dient zum Einstieg in SPSS und zeigt anhand von Beispielen, wie man verschiedene Methoden der Statistik in SPSS anwenden kann. Dabei werden Interpretationshilfen der SPSS-Ausgaben gegeben und es werden diverse Testverfahren mit Beispielen beschrieben. Anhand der Beispiele wird dann auch erklärt, wie man den p-Wert interpretieren kann und welche Schlüsse sich dadurch ergeben. Im Vordergrund stehen dabei die Anwendungen von Verfahren der größtenteils schließenden und beschreibenden Statistik, weniger die graphischen Möglichkeiten. Es werden aber auch Diagramme erstellt und beschrieben, wie beispielsweise der Boxplot. Die Ausgaben und die Tests werden so erklärt, dass sie für Sozialwissenschaftlerinnen und Sozialwissenschaftler oder für Wirtschaftswissenschaftlerinnen und Wirtschaftswissenschaftler verständlich sein sollen. Für diejenigen, die eine weiterführende mathematische Erläuterung haben möchten, wurde jeweils ein Abschnitt 'Für mathematisch Interessierte' eingebaut. Hier werden dann die Größen der SPSS-Ausgabe näher untersucht und es werden auch mathematische Erklärungen gegeben. Wer diese nicht benötigt, kann die entsprechenden Passagen überspringen. Die Ausgaben und die Erklärung der Menüführung wurden auf der Basis der Version 22 erstellt. Es werden aber auch Anmerkungen zur Verwendung von älteren Menüs gegeben. Lernvideos zum Buch finden Sie unter www.statistikpaket.de/SPSS-Videos.html.

Dr. rer. nat. Marco Schuchmann hat in Darmstadt Mathematik studiert und ist an der Hochschule Darmstadt im Fachbereich Mathematik und Naturwissenschaften angestellt. Hier hält er u.a. Mathematikvorlesungen über Themen, wie z.B. Wavelets und auf dem Gebiet der mathematischen Statistik. Seit 1996 veröffentlicht er mathematische Fachbücher.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe

2 Univariate Statistiken und Diagramme

In diesem Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen Voraussetzungen, als Schätzer für „theoretische“ Kenngrößen einer Zufallsvariablen verwendet werden, wie beispielsweise für den Erwartungswert.

2.1 Berechnung von Kenngrößen

Gegeben sei folgende Stichprobe: 167,163,155,167,161,177,173,179. Diese Werte könnten als Körpergrößen von zufällig ausgewählten Schülern einer Schule interpretiert werden.

Die folgenden Daten werden zunächst in SPSS eingegeben.

167

163

155

167

161

177

173

179

Kenngrößen können wir auch über das Menü für Häufigkeitstabellen auswählen. Wir wählen → Analysieren →Deskriptive Statistiken →Häufigkeiten und dort wählen wir v1 aus. Man könnte auch unter →Deskriptive Statistiken →Deskriptive Statistiken wählen, nur hier wird kein Median unter "Optionen" angeboten.

Danach klicken wir auf →Statistiken im selben Fenster und hier erscheint dann folgendes (wir haben schon einige Kenngrößen ausgewählt, die Sie auch wählen können):

Wir klicken auf →Weiter und dann auf Diagramme, wo wir ein Histogramm auswählen.

Histogramme sind für metrische Werte geeignet, gerade wenn viele verschiedene Werte auftreten können, aber nicht für jede einzelne Ausprägung ein Balken, wie bei Balkendiagrammen, erscheinen soll.

Balkendiagramme eigenen sich für ordinale oder nominale Daten und Kreisdiagramme für nominale Daten, bei nicht zu vielen Ausprägungen.

Wir klicken nach der Diagrammauswahl auf →Weiter und dann auf →OK.

Statistiken

Körpergröße

N Gültig

Fehlend

Mittelwert

Median

Modalwert

Standardabweichung

Varianz

Minimum

Maximum

Perzentile 25

167,7500

167,0000

167,00

8,20714

67,357

155,00

179,00

161,5000

167,0000

176,0000

Die Ausgabe der Tabelle hätte man auch unterdrücken können (im Menü zu Tabellen den Haken bei „Tabelle anzeigen“ deaktivieren).

Körpergröße

Der Mittelwert liegt bei 167,75cm und der Median bei 167cm, womit ca. die bzw. mindestens die Hälfte der Personen bis zu 167cm groß waren. Der Median ist das 50% Quartil. Da Werte mehrfach vorkommen können, können auch deutlich mehr als 50% der Werte kleiner oder gleich dem (empirischen) Median sein. Im Beispiel sind 62,5% kleiner oder gleich 167cm (siehe Häufigkeitstabelle oben).

Analog gibt es das 25% Quartil, welches hier bei 161,5cm liegt, womit ca. ¼ der Personen bis zu 161,5cm groß waren (hier waren es sogar genau 25%, je nachdem wie groß die Stichprobe ist und wie viele Werte mehrfach vorkommen gibt es Abweichungen zu den %-Zahlen der Quartile).

Die untere Grafik kann mit einem Doppelklick auf selbige bearbeitet werden. D.h. man kann beispielsweise mit einem Doppelklick auf die y-Achse die Skalierung einstellen (den Bereich, der angezeigt wird, aber auch Schrittweiten für die Beschriftung), was ähnlich wie in Excel geht.

Wie man sieht, sind mehr Kenngrößen zur Beurteilung einer Stichprobe notwendig, als nur der Mittelwert. Z.B. hätten die beiden Stichproben 170, 169, 171 und 170, 150, 190 beide denselben Mittelwert, nämlich 170, aber die zweite Stichprobe hat eine deutlich größere Standardabweichung. An der Standardabweichung kann man schon mal erkennen, in wie weit der Mittelwert als Vorhersagewert für eine Beobachtung geeignet ist. Wenn der Mittelwert von Jahreseinkommen 40.000€ ist und die Standardabeichung 100€, dann liegen die Werte (Jahreseinkommen) relativ nahe beieinander, wenn diese aber 30000€ beträgt, gibt es eine beachtliche Streuung.

Nehmen wir einmal 10 Personen, 9 haben 0€ auf ihrem Konto, eine hat 1.000.000€. Im Mittel hat jeder 100.000€. Die Streuung wäre riesig. Betrachtet man hier den Median, der unempfindlich gegenüber Ausreißern ist, dann beträgt dieser 0€. Damit weiß man, dass mindestens 50% der Personen höchstens 0€ hatten. Auch das 75% Quartil wäre 0€, womit man weiß, dass mindestens 75% der Personen 0€ hatten. Dadurch kann man schon eher eine Stichprobe beurteilen, als nur über den Mittelwert. Man könnte zur graphischen Beurteilung auch einen Boxplot oder ein Histogramm erstellen, was wir nach dem Teil für "mathematisch Interessierte" im Beispiel tun.

Für mehr mathematisch Interessierte folgt eine genauere Betrachtung der Kenngrößen:

Ganz oben ist der Stichprobenumfang zu finden, den wir im Folgenden mit n bezeichnen. Die Beobachtungen der Stichprobe werden mit xi (i = 1, 2, …, n) bezeichnet. Die Stichprobe ist dann x1, x2, …, xn.

Hier sind einige Kenngrößen von Stichproben zu sehen:

Das arithmetische Mittel:

Die empirische Varianz:

Die empirische Standardabweichung:

Der kleinste und größte Stichprobenwert:

min(xi) und max(xi).

Der empirische Median (eine Möglichkeit der Berechnung):

Hierzu wird zunächst die Stichprobe x1, x2, xn geordnet in x(1), x(2), ..., x(n). Nun kann der empirische Median berechnet werden.

Falls n gerade ist gilt: = (x(n/2) + x(n/2+1))/2

Falls n ungerade ist gilt: = x((n+1)/2)

Ist z.B. die Stichprobe 165, 168, 185, dann ist der Median 168 (n ist ungerade, „es gibt eine Mitte“). Wäre 168, 170, 172, 180 die Stichprobe, dann ist der Median (170+172)/2 = 171.

Weitere Kenngrößen sind der empirische Variationskoeffizient die empirische Schiefe und die empirische Wölbung (engl. skewness & kurtosis):

Bei symmetrischen Verteilungen nimmt die Schiefe den Wert 0 an. Da es sich jeweils um die entsprechenden empirischen Werte, also um Schätzer der theoretischen Kenngrößen handelt, ist der Wert bei Stichproben, die aus Realisierungen von symmetrisch verteilten Zufallsvariablen bestehen, nicht automatisch gleich Null. Ist die Abweichung vom Wert 0 zu groß, so ist dies ein Hinweis darauf, dass die theoretische Verteilung nicht symmetrisch sein könnte. Die Schiefe ist - wie die Wölbung - dimensionslos. Die Wölbung einer normalverteilten Zufallsvariable hat den Wert 3, während der Exzess hier den Wert 0 annimmt.

Wir erstellen noch einen Boxplot. Dazu wählen wir: →Diagramme → Alte Dialogfelder →Boxplot. Bei älteren SPSS Versionen müssen Sie statt →Diagramme den Menüpunkt →Grafik wählen.

Hier können Sie →Einfach und Auswertung über verschiedene Variablen auswählen und auf →Definieren klicken. Wir haben zwar nur eine Variable für den Boxplot, wir müssen aber nicht mehrere auswählen. Wenn man den Punkt Auswertung über Kategorien einer Variablen auswählt, muss man mindestens eine Variable auswählen, die die Gruppen definiert, z.B. das Geschlecht, was wir noch gleich sehen werden.

Wählen Sie nun im Menü unter „Box entspricht“ Ihre Variable Körpergröße bzw. v1 aus und dann →OK.

Die Grafik, die sie dann sehen, könnten Sie auch nach einem Doppelklick auf selbige bearbeiten (Achsen formatieren, …).

Die Box verläuft vom 25% Quartil (q25) bis zum 75% Quartil (q75). Die Box umfasst damit ca. 50% der Stichprobenwerte (die mittleren ca. 50%). Es sind keine Ausreißer vorhanden. Diese wären oberhalb oder unterhalb der Whiskers, d.h. der Linien, die oben und unten von der Box weg verlaufen und diese würden mit einem Kringel und der Nummer der Beobachtung gekennzeichnet werde. Es könnten auch extreme Werte vorhanden sein, die mit einem Stern gekennzeichnet werden.

Hier sind mehr Details dazu:

Die...

Blick ins Buch

Weitere E-Books zum Thema: Statistik - Algorhitmen

Wahrscheinlichkeitstheorie

Format: PDF

Dieses Lehrbuch bietet eine umfassende moderne Einführung in die wichtigsten Gebiete der Wahrscheinlichkeitstheorie und ihre maßtheoretischen Grundlagen. Themenschwerpunkte sind: Ma…

Fathom 2

Eine Einführung Format: PDF

Fathom 2 ist eine einzigartige dynamische Stochastik- und Datenanalysesoftware, die den besonderen Bedürfnissen der schulischen und universitären Lehre gerecht wird und die hier erstmals in deutscher…

Fathom 2

Eine Einführung Format: PDF

Fathom 2

Eine Einführung Format: PDF

Schwingungen mechanischer Antriebssysteme