Binomialtest in R

Der Binomialtest vergleicht den Anteil innerhalb einer Stichprobe mit einem hypothetisch angenommenen Anteil. Folgende Nullhypothese wird gegen die Alternative getestet:

Nullhypothese: Der Anteil innerhalb der Stichprobe ist gleich dem Anteil in der Grundgesamtheit.

gegen

Alternativhypothese: Der Anteil innerhalb der Stichprobe ist ungleich dem Anteil in der Grundgesamtheit.

In R liegt die Funktion binom.test(x, n, p) vor. Hierbei ist x die Anzahl an Erfolgen, n die Anzahl an Versuchen und p die Erfolgswahrscheinlichkeit eines Versuchs. Somit schauen wir uns ein paar Beispiele der Umsetzung des Binomialtests in R an.

Beispiel 1:

Mehrfacher Münzwurf. Erfolgswahrscheinlichkeit, Kopf erscheint beim Wurf, p = 1/2. Insgesamt n = 27 Versuche mit x = 12 Erfolgen. Dadurch testen wir die Nullhypothese p = 1/2 zum Niveau 0,05 (zweiseitig). Somit zeigt sich kein signifikantes Ergebnis. Der p-Wert betrug 0,701.

Beispiel 2:

Mehrfacher Würfelwurf. Erfolgswahrscheinlichkeit, das 6 Augen erscheinen beim Wurf, p = 1/6. Wir vermuten, dass der Würfel manipuliert ist. Das heißt wir nehmen an, dass die wahre Erfolgswahrscheinlichkeit geringer als 1/6 ist. Insgesamt n = 60 Versuche mit x = 4 Erfolgen. Somit testen wir die Nullhypothese p ≥ 1/6 zum Niveau 0,05 (einseitig). Dadurch zeigt sich ein signifikantes Ergebnis. Der p-Wert betrug 0,020. Mit der Option alternative = "less" testen wir die Nullhypothese p ≥ 1/6.

Beispiel 3:

Ausfallwahrscheinlichkeit von Fahrzeugen eines Fuhrparks, p = 0,02. Wir möchten prüfen, ob die wahre Ausfallwahrscheinlichkeit größer als 0,02 ist. Insgesamt n = 40 Fahrzeuge im Fuhrpark mit x = 4 Ausfällen. Somit testen wir die Nullhypothese p ≤ 0,02 zum Niveau 0,05 (einseitig). Dadurch zeigt sich ein signifikantes Ergebnis. Der p-Wert betrug 0,008. Mit der Option alternative = "greater" testen wir die Nullhypothese p ≤ 0,02.

Friedman-Test in Stata

Der Friedman-Test findet Verwendung, wenn ein mindestens ordinalskaliertes für mehr als zwei abhängige Gruppen verglichen wird. Er ist ein nicht-parametrischer Verfahren. Im Gegensatz zur ANOVA mit Meßwiederholungen liegt ebenfalls keine Normalverteilungsannahme vor. im Weiteren wird die Durchführung des Friedman-Tests in Stata beschrieben.

Die Daten

Wir nutzen für die Analysen den Allbus 2018. Folgender Befehl lädt den Datensatz in Stata ein.

Wir möchten das Vertrauen zwischen verschiedenen Themen untersuchen. Kommendes Bild zeigt beispielsweise die Verteilung des Vertrauens in den Bundestag. Die Variablen, welche wir vergleichen sind allesamt ordinär und weisen weiterhin die Kategorie keine Angabe auf. Diese müssen wir für die Analysen entfernen.

Die Option nolabel bewirkt, dass die Verteilung der Variablen mittels der Kodierungen angezeigt wird. Es zeigt sich, dass keine Angabe die Kodierung -9 aufweist. Dies gilt für alle Variablen, welche wir mit dem Friedman-Test vergleichen. Diese müssen wir nun entfernen.

Dies gelingt uns mittels der folgenden Schleife. Mittels des Friedman-Tests wollen wir das Vertrauen in den Bundestag, in die Bundesregierung, in die politischen Parteien, in die Kommission der EU und in das Europäische Parlament miteinander vergleichen. Deshalb lassen wir die Schleife über dies Variablen laufen. Innerhalb der Schleife ersetzen wir die Keine Angabe Kategorie durch einen fehlenden Wert.

Friedman-Test

Der Friedman-Test ist nicht in Stata implementiert. Es gibt jedoch eine user-written Variante. Diese können wir wenn wir findit friedman in die Konsole von Stata eingeben.

Es öffnet sich das folgende Fenster. Der hier dritte Eintrag ist das Paket friedman.

Klicken wir darauf. Dann öffnet sich das folgende Fenster. Hier können wir mit einem Klick auf click here to install das Paket installieren.

Ist die Installation geglückt, so erscheint so sieht das Fenster, wie folgt aus.

Den Befehl benutzt man gefolgt von einer Variablenliste. Hierbei wählt man die Variablen, welche man vergleichen will. Kommendes Bild zeigt die Ergebnisse. Mittels des Friedman-Tests zeigen sich signifikante Unterschiede zwischen den Vertrauens-Arten, p = 0,000.

Eine Post-Hoc-Analyse kann nun Aufschluss geben, welche Arten des Vertrauens sich im genauen signifikant unterscheiden.

Wilcoxon-Vorzeichenrangtest in Stata

Der heutige Artikel beschreibt die Umsetzung eines Wilcoxon-Vorzeichenrangtests in Stata. Dabei handelt es sich beim Wilcoxon-Vorzeichenrangtest um einen nicht-parametrischen Test zur Prüfung auf Mittelwertunterschiede zwischen verbundenen Stichproben. Der benötigt mindestens ordinalskalierte Merkmale.

Die Daten

Für die Untersuchung verwenden Sie den Datensatz bpwide.dta. Der ist ein in Stata implementierter Datensatz. Dieser kann mit dem Befehl sysuse geladen werden.

Der Datensatz besteht aus N = 120 Personen. Weiterhin liegen 5 Variablen vor. Die Patienten ID, das Geschlecht, Altersgruppe, Blutdruck vor und Blutdruck nach einer Intervention. Im Weiteren möchten wir untersuchen, ob sich Blutdruck vor und nach der Intervention signifikant von einander unterscheiden.

Die Analyse

Zunächst überprüfen Sie, ob die Differenz der Messungen des Blutdrucks normalverteilt sind. Hierzu berechnen Sie sich die Differenz aus den beiden Messungen mittels des folgenden Befehls.

Nun erstellen Sie sich ein Quantil-Quantil-Plot um die Quantile der Differenzen mit den Quantilen der Normalverteilung zu vergleichen. Dies geschieht mit dem kommenden Befehl.

Sie erhalten hierdurch die kommende Grafik. Hierbei ist schön zuerkennen, dass die Punkte sich nahezu auf einer Linie konzentrieren. Somit ist von einer hohe Übereinstimmung mit einer Normalverteilung auszugehen. In dieser Situation sollte also der t-Test verwendet werden! Nichtsdestotrotz geht es in diesem Artikel in erster Linie um die Durchführung des Wilcoxon-Vorzeichenrangtests in Stata.

Mittels des kommenden Befehls lässt sich der Wilcoxon-Vorzeichenrangtest in Stata berechnen. Des zeigt sich, dass die Unterschiede im Blutdruck vorher/nachher signifikant sind, Z = 3,19, p = 0,001.

Zur Prüfung in welche Richtung sich die Mittelwerte unterscheiden benutzen Sie deskriptive Statistiken. Mit kommenden Befehl erhalten Sie Mittelwert, Standardabweichung, Minimum und Maximum von den Daten. Hierbei zeigt sich, dass der Blutdruck nach Intervention gesunken ist. Er beträgt nun M = 151,35. Vor Intervention lag er bei M = 156,45.

Varianzanalyse (ANOVA) in SPSS

Dieser Artikel beschreibt das Thema Varianzanalyse in SPSS. Zur Vorführung der Umsetzung der ANOVA in SPSS verwenden Sie den Datensatz anorectic.sav. Dieser ist als Beispieldatensatz in SPSS implementiert.

Die Daten

Der Datensatz umfasst N = 217 Fälle. Weiterhin befinden sich 22 Variablen im Datensatz. Mit der ANOVA untersuchen wir die Fragestellung: Gibt es Unterschiede im mentalen Status zwischen Diagnosen. Dabei ist der mentale Status die Variable Moos und die Diagnose die Variable diag.

Die Analyse

Zur Berechnung einer Varianzanalyse gehen Sie in SPSS auf Analysieren und Mittelwert vergleichen.

Hier klicken Sie nun auf Einfaktorielle Varianzanalyse.

Des öffnet sich das folgende Dialogfeld.

Wir möchten den mentalen Status in Abhängigkeit der Diagnose untersuchen. Somit wählen wir die Variable mood und fügen Sie in das Feld Abhängige Variablen ein.

Das Dialogfeld sieht nun wie folgt aus.

Weiterhin suchen wir uns die Variable diag. Auch diese fügen wir nun, jedoch als Faktor, in das entsprechende Feld ein.

Unser Dialogfeld sieht nun folgendermaßen aus. Da wir mehr als 2 Gruppen haben, möchten wir im Anschluss eine Post-Hoc-Analyse durchführen, falls ein signifikanter Globaleffekt identifiziert werden sollte. Somit drücken Sie auf den Button Post hoc.

Menü Post hoc

Es erscheint das kommende Dialogfeld. Sie können Ihr zwischen zwei Arten von Post-Hoc-Analysen berechnen. Zum einen unter der Annahme gleicher Varianzen zwischen den Gruppen und zum anderen unter der Annahme ungleicher Varianzen zwischen den Gruppen. Wir möchten für beide Situationen die paarweisen Vergleiche berechnen. Somit wählen Sie Tukey bei Varianzgleichheit und Games-Howell bei Varianzungleichheit.

Das Dialogfeld sieht nun so aus. Sie haben einen Post-Hoc-Test für Varianzgleichheit und einen für -ungleichheit angewählt. Somit drücken Sie nun auf Weiter.

Sie befinden sich nun wieder im Dialogfeld der ANOVA. Drücken Sie nun auf Optionen.

Menü Optionen

Es öffnet sich das kommende Dialogfeld. Hier können einige weitere Tests und Kennzahlen für unsere ANOVA berechnet werden. Sie möchten Ihre Gruppen auch deskriptiv untersuchen? Dann wählen Sie Deskriptive Statistik an. Weiterhin unterliegt die ANOVA der Annahme, dass die Varianzen zwischen den Gruppen gleich sind. Hierbei bezieht sich die Varianz auf die Streuung der abhängigen Variablen mood innerhalb der Gruppen. Somit wählen Sie Test auf Homogenität der Varianzen an. Damit wird dann bei der ANOVA der Levene-Test auf Varianzungleichheit mit ausgegeben. Im Falle inhomogener Varianzen sollte einer Korrektur der p-Werte verfolgen. Dabei bieten sich in SPSS zwei Varianten an. Der Brown-Forsythe- und der Welch-Test. Wählen Sie Welch-Test an, so dass ein robuster Schätzer bei der Analyse mit angeben wird. Weiterhin kann sich mittels eines Diagramms der Mittelwerte eine grafische Darstellung ausgegeben werden. Klicken Sie hierzu auf Diagramm der Mittelwerte.

Das Dialogfeld sieht nun folgendermaßen aus. Bestätigen Sie die Eingaben mit Weiter.

Sie befinden sich nun in dem ursprünglichen Dialogfeld der ANOVA. Drücken Sie nun auf den Haken Effektgröße für gesamte Tests schätzen. Wir haben alle für diese Analyse nötigen Einstellungen vorgenommen. Somit drücken Sie nun auf OK. Damit werden die Ergebnisse unserer Analyse berechnet.

Die Ergebnisse

Die kommende Tabelle zeigt Ihnen die deskriptiven Statistiken zu den Gruppen. Es ist zu erkennen, dass die schwereren Essstörungen einen höheren Mittelwert aufweisen als die atypische Essstörung. In den drei Anorexie und Bulimie Gruppen zeigten sich ähnlich hohe Mittelwerte. Weiterhin zeigt sich einer minimale Gruppengröße von N = 28. Des handelt sich hierbei um die atypische Essstörung. An dieser Stelle sei erwähnt, dass auf eine Prüfung der Normalverteilung als Voraussetzung der ANOVA verzichtet wird. Bei einer Verletzung könnte auf Grund der großen Stichprobe von einer annähernden Normalverteiltheit gesprochen werden (zentraler Grenzwert Satz). Alternativ kann auch ein Bootstrap oder der nicht-parametrische Kruskal-Wallis-Test benutzt werden.

Nun wird die Annahme der Varianzhomogenität überprüft. Dabei liefert der Levene-Test ein nicht-signifikantes Ergebnis, F(3, 213) = 2,3, p = 0,078. Somit ist von homogenen Varianzen auszugehen.

Somit können nun die Effekte zwischen den Gruppen untersucht werden. Es zeigt sich, dass zwischen den Gruppen nicht-signifikante Mittelwertunterschiede vorliegen, F(3, 213) = 1,03, p = 0,090.

Der Effekt zwischen den Gruppen (eta-Quadrat) betrug 0,03. Somit ist nach den Konventionen von Cohen (1988) ein schwacher Effekt zwischen den Gruppen anzunehmen. Auf Grund der Tatsache, dass keine signifikanten Globaleffekt nachgewiesen werden konnten, muss eine Post-Hoc-Analyse der paarweisen Mittelwertvergleiche nicht mehr erfolgen.

Kruskal-Wallis-Test in SPSS

Im Folgenden erläutern wir Ihnen die Umsetzung des Kruskal-Wallis-Tests in SPSS. Dieser Signifikantes findet Anwendung bei der Untersuchung auf Mittelwertunterschiede zwischen mehr als zwei Gruppen bezüglich eines mindestens ordinalen Merkmals. Da er keine konkrete Verteilungsannahme hat, kann er auch bei nicht-normalverteilten metrischen Merkmalen verwendet werden.

Die Daten

Nutzen Sie den Datensatz offer.sav um die Analyse durchzuführen. Kommender Screenshot zeigt den Datensatz im Dateneditor von SPSS. Der Datensatz hat N = 21 Beobachtungen und 5 Variablen. Wir werden dabei den Wert (metrisch) in Abhängigkeit des Angebots (nominal) untersuchen.

Die Analyse

Gehen Sie hierzu auf Analysieren und Deskriptive Statistiken.

Wir wollen zunächst die Normalverteilungsannahme überprüfen. Somit wählen Sie Explorative Datenanalyse.

Friedman-Test in SPSS

Sollen mehr als zwei Messwiederholungen bezüglich eines mindestens ordinalskalierten Merkmals induktiv untersucht werden, so biete sich der Friedman-Test an. Hierbei handelt es sich um einen nicht-parametrischer Test. Er eignet sich somit für metrische Daten, bei welchen die Normalverteilungsannahme der Differenzen zwischen den Messungen verletzt erscheint.

Die Daten

Der Daten der verwendet wird ist in SPSS implementiert und heißt dietstudy.sav. Dieser beinhaltet Daten zu einer Diätstudie mit N = 16 Teilnehmern. Unter Anderem enthält der Datensatz 5 Messungen zu dem Wert an Triglyceriden der Probanden. Im Folgenden wird untersucht, ob sich die Anzahl an Triglyceride über die Messungen verändert hat.

Analyse

Zunächst erfolgt eine Datenexploration um die Verteilung der Messungen beurteilen zu können. Dies erfolgt grafisch. Hierzu wählen Sie bei SPSS Grafik und dann klassische Dialogfelder an, vergleich den kommenden Screenshot.

Unter klassische Dialogfelder wählen Sie nun Boxplot.

Es öffnet sich das folgende Dialogfeld. Hier wählen Sie bitte Einfach. Bei Daten im Diagramm verwenden Sie Auswertung über verschiedene Variablen. Dann drücken Sie auf Definieren.

Jetzt öffnet sich das kommende Dialogfeld. Hier markieren Sie die fünf Messungen der Triglycerid-Werte.

Diese markierten Variablen fügen Sie dann in das Feld Box entspricht ein. Danach drücken Sie auf OK.

Es erscheint in der SPSS-Ausgabe die angeforderte Grafik.

Für eine bessere Übersicht betrachten Sie die Boxplots vertikal. Hierzu müssen Sie im Diagrammeditor in der Symbolleiste auf Koordinatensystem transponieren klicken. Es ist zu erkennen, dass die Triglycride-Werte leicht Schiefen in ihren Verteilungen aufweisen. In Anbetracht dessen und dem mit N = 16 geringen Stichprobengröße scheint es sinnvoll zu sein einen nicht-parametrischen Test zu verwenden.

Zur Durchführung des Tests gehen Sie auf Analysieren und dann auf Nicht parametrische Tests.

Es öffnet sich ein weiteres Dialogfeld in welchem Sie klassische Dialogfelder wählen.

Hier wählen Sie K verbundene Stichproben aus.

Es öffnet sich das kommende Fenster. Hier ist der Friedmann-Test per Voreinstellung ausgewählt. Es können hier noch der Kendall- oder Cochran-Test angewählt werden. Markieren Sie wieder die fünf Messungen zu den Triglyceriden.

Diese fügen Sie in das Feld Testvariablen ein. Danach bestätigen Sie mit OK.

In der SPSS-Ausgabe erscheint die folgende Tabelle. Hier ist zu erkennen, dass der Friedman-Test auf nicht-signifikante Unterschiede hindeutet, \chi^2(4)=4,18, p = 0,383. Da keine signifikanten Unterschiede zwischen den Messungen nachgewiesen werden konnten, ist eine Post-Hoc-Analyse nicht notwendig.

Kruskal-Wallis-Test in Stata

Zur Untersuchung von Gruppenunterschieden (mehr als 2 Gruppen) biete sich der nicht-parametrische Kursaal-Wallis-Test an. Dieser benötigt ein mindestens ordinalskalierte Merkmal und unterliegt nicht der Normalverteilungsannahme. Im Weiteren wird in diesem Artikel die Umsetzung des Tests in Stata beschrieben.

Die Daten

Für die Analyse laden wir den systeminternen Datensatz auto.dta.

Dieser Datensatz umfasst 12 Merkmale zu N = 71 Automodellen. Unter Anderen beinhaltet der Datensatz die Merkmale Kopffreiheit (headroom) und Preis (Price). Im Folgenden sollen im Folgenden Mittelwertunterschiede zwischen verschiedenen Klassen an Kopffreiheit untersucht werden. Hierbei liegt die Kopffreiheit als metrisches Merkmal vor, sodass eine Klassenbildung erfolgen muss, damit der Kruskal-Wallis-Test verwendet findet.

Mittels der kommenden Befehle wird aus der Variablen Kopffreiheit eine neue Variable klassierte Kopffreiheit generiert. Hierbei wird eine kategoriale Variable mit den Ausprägungen unter 2, zwischen 2 und maximal 3, zwischen 3 und maximal 4 und über 4 erzeugt.

Mittels kommender Befehle erfolgt die Vergabe der Variablen- und Wertelabels.

Analyse

Vor einer induktiven Mittelwertuntersuchung, erfolgt eine Exploration der Daten. Kommender Befehl dient der Visualisierung der Verteilung des Preises nach Kopffreiheitsklassen. Hiermit sind die Verteilungen in Form von Boxplots dargestellt.

Kommende Abbildung zeigt die Verteilungen der Preise nach Kopffreiheit. Hierbei zeigt sich, dass die Verteilungen für 2 thru 3 in. und 3 thru 4 in. rechtsschief sind. Demgegenüber sind die Verteilungen von under 2 in. und over 4 in. jeweils linksschief. Wegen der Schiefe innerhalb der Gruppen kann eine Normalverteilung ausgeschlossen werden. Somit erscheint die Untersuchung der Mittelwertunterschiede mittels eines nicht-parametrischer Tests sinnvoll.

Hierzu wird der Kurskal-Wallis-Test benutzt. Im vorliegenden Falle deutet dieser auf nicht-signifikante Unterschiede im Preis zwischen den Kopffreiheitsklassen hin, \chi^2(3)=2,98, p = 0,394. Damit unterscheidet sich der Preis zwischen den Kopffreiheitsklassen nicht. Auf Grund des nicht-signifikanten Ergebnisses ist eine Post-Hoc-Analyse nicht nötig.

Kruskal-Wallis-Test in R

Der Kruskal-Wallis-Test wird benutzt, wenn zwei oder mehr Gruppen bezüglicheines mindestens ordinalskaliertes Merkmal zwischenverglichen werden. Er unterliegt im Vergleich zur Varianzanalyse weniger harten Annahmen. Zum Beispiel ist eine Normalverteilung innerhalb der Gruppen keine Voraussetzung dieses Tests.

Die Daten

Wir nutzen für die heutige Analyse den Datensatz chickwts aus dem Paket datasets. Er besteht aus N = 71 Beobachtungen und 2 Merkmalen. Zum einen das Gewicht von 71 Hühnern. Zum Anderen eine kategoriales Merkmal, welches den Futtertyp angibt. Dabei liegen bei dem Futtertyp 6 Ausprägungen, also verschiedenen Futterarten, vor.

Wir wollen im Folgenden untersuchen, ob zwischen den 6 Futtertypen signifikante Gewichtsunterschiede vorliegen.

Die Analyse

Zunächst betrachten wir die Verteilungen der Gewichte für die 6 Futtertypen visuell. Hierzu erstellen wir mit dem kommenden Befehl Boxplots.

Kommende Grafik zeigt die Boxplots. Zunächst fällt auf, dass sich die Verteilungen sehr in ihren Streuungen visuell unterscheiden. Weiterhin ist zu erkennen, dass sich ebenfalls die durchschnittlichen Gewichte der Hühner nach Futtertyp unterscheiden. Ebenfalls wirken die Verteilungen alle, bis auf die zu horsebean, sehr asymmetrisch. Dies deutet auf eine Verletzung der Normalverteilungsannahme hin. Somit werden die Unterschiede zwischen den Futtergruppen mittels eines geeigneten nicht-parametrischer (verteilungsfreien) Test untersucht.

Für die Untersuchung auf Gruppenunterschiede mittels eines geeigneten verteilungsfreien Tests untersucht. Hierbei eignet sich der Kruskal-Wallis-Test. Mit dem kommenden Befehl lässt sich dieser in R berechnen. Er liefert ein signifikantes Ergebnis, \chi^2(5)=37,34, p = 0,000. Somit unterscheidet sich das Gewicht des Hühner zwischen den Futtertypen signifikant. Zur Prüfung, wie sich die Futtertypen paarweise unterscheiden wird eine Post-Hoc-Analyse vollzogen. Hierfür verwenden wir den Dunn-Test.

Der Dunn-Test ist in dem Paket FSA implementiert. Der kommende Befehl lädt das Paket in R.

Kommender Output zeigt die Ergebnisse. Hierbei wurde die Funktion dunnTest() benutzt. Mittels der Benjamin-Hochberg-Korrektur ist für das multiple Testproblem korrigiert. Dabei zeigt sich, dass zwischen casein & horsebean, casein & linseed, horsebean & meatmeal, casein & soybean, horsebean & soybean, horsebean & sunflower, linseed & sunflower und soybean & sunflower signifikante Mittelwertunterschiede vorliegen.

Chi-Quadrat-Test in R

Im heutigen Artikel gehen wir darauf ein, wie ein Chi-Quadrat-Test in R umgesetzt wird. Im Falle zweier kategorialer Merkmale wird dieser häufig bei der Statistik-Beratung verwendet.

Die Daten

Für die Analyse mittels Chi-Quadrat-Test werden wir den Datensatz Titanic aus dem Paket datasets benutzen. Dabei lesen wir das Paket datasets wie gewohnt mit library(datasets) ein. Kommender Screenshot zeigt uns den Aufbau des Datensatzes beziehungsweise des Objekts Titanic.

Wir wollen den Zusammenhang zwischen dem Überleben Survived und der Reiseklasse beziehungsweise Crew Class untersuchen. Um uns hierzu aus dem Objekt Titanic eine Kreuztabelle mit dem Überleben gegen die Klassenzugehörigkeit zu erzeugen, ist es sinnvoll, sich zunächst mit der Beschaffenheit des Objekts auseinander zusetzen. Kommender Screenshot zeigt die Struktur des Objekts. Es handelt sich hierbei um einen table mit Listeneinträgen. Dabei sind die Einträge der Liste gerade die vier Merkmale Class, Sex, Age und Survived.

Kommendes Bild zeigt den Code um die oben erwähnte Kreuztabelle zu berechnen. Hierbei verwenden wir die Funktion apply. Das erste Element im Funktionsaufruf ist dabei das Objekt Titanic. Als margin wurde der Vektor c(4, 1) angegeben. Damit werden das vierte und das erste Listenelement angewählt. Also Survived und Class. Weiterhin wenden wir die Funktion sum auf Titanic an. Somit erhalten wir die folgende Kreuztabelle.

Die Analyse

Mittels des Befehls chisq.test() wird der Chi-Quadrat-Test berechnet. Hierbei kann das Objekt unter anderem als table an die Funktion übergeben werden. Der Chi-Quadrat-Test liefert hierbei ein signifikantes Ergebnis, \chi^2(3)=190,4, p = 0,000. Weiterhin ist die Annahme, dass alle erwarteten Häufigkeiten größer 5 sind, erfüllt. Die Berechnung der erwarteten Häufigkeiten erfolgt in R wie folgt. Wir hatten zunächst den Chi-Quadrat-Test in dem Objekt test abgespeichert. Hierauf haben wir uns mit test$expected die erwarteten Häufigkeiten ausgegeben lassen.

Möchten wir die Stärke des Zusammenhangs beurteilen, so bietet sich Cramer's V an. Dieses ist im Paket questionr implementiert. Die Funktion cramer.v berechnet jenes. Dabei ergab sich ein Cramer's V von 0,29. Somit ist der Zusammenhang unbedeutsam.

Chi-Quadrat-Test in SPSS

Im Falle von kategorialen Merkmalen und Zusammenhangsanalysen kommt bei einer SPSS-Auswertung häufig der Chi-Quadrat-Test zur Verwendung. Er findet bei kategorialen Merkmalen verwenden. Hierbei zeigen wir im heutigen Beitrag auf, wie der Test in SPSS umzusetzen ist. Die Umsetzung einer Zusammenhangsanalyse metrischer Daten erfolgt in SPSS mit der Pearson-Korrelation.

Die Daten

Wir nutzen zu Vorführung den Datensatz cereal.sav der in SPSS 26 als Beispieldatensatz vorliegt. Dabei enthält dieser Datensatz informationen zu dem Alter (in Klassen), Geschlecht, Familienstand, Art des Lifestyles und das präferierte Frühstück von N = 880 Personen.

Die Analyse

Wir wollen den Zusammenhang zwischen Alter und präferiertem Frühstück untersuchen.

Erstellung der Kreuztabelle

Hierzu gehen Sie auf Analysieren > Deskriptive Statistik > Kreuztabellen.

Es öffnet sich das folgende Menu. Hierbei fügen wir die Variablen agecat in das Feld Zeilen und bfast in das Feld Spalten ein.

Anwahl des Chi-Quadrat-Tests und Assoziationsmaßes

Das Fenster sieht nun wie in kommenden Bild aus. Wir klicken nun auf den Button Statistik.

Es öffnet sich das kommende Fenster. Da wir den Chi-Quadrat-Test berechnen möchten, machen wir einen Haken an Chi-Quadrat. Weiterhin möchten wir uns ein Zusammenhangsmaß ausgeben lassen, dass für nominale Skalen geeignet ist. Hierbei stehen uns mehre in SPSS zur verfügung. Wir wählen Cramer's V. Somit machen wir einen Haken an Phi und Cramer-V.

Das Fenster sieht nun wie in dem nächsten Bild aus. Nun klicken wir auf Weiter.

Weitere Kennzahlen bzw. Statistiken für die Kreuztabelle

Wir befinden uns wieder im Hauptmenu für Kreuztabellen. Wir wollen weitere Anpassungen an unsere Berechnungen vornehmen , sodass wir auf Zeilen klicken.

Folgendes Fenster öffnet sich jetzt. Hier können diverse Statistiken bezüglich der Kreuztabelle angewählt werden. So ist es möglich sich die erwarteten Häufigkeiten mit in der Kreuztabelle angeben zu lassen. Nichtsdestotrotz ist das nicht zwingend notwendig, da ohnehin eine Fußnote unter der Kreuztabelle in jedem Falle mit angibt, ob die Annahme der erwarteten Häufigkeiten erfüllt ist beziehungsweise wieviele Zellen der Kreuztabelle den Richtwert von größer 5 nicht erreichen.

Wesentlicher sind im Kontext von Gruppenvergleichen die Zeilen- beziehungsweise Spaltenprozente. Mit Ihnen kann der Zusammenhang schon einemal an Und der Kreuztabelle beurteilt werden, ohne eine Kennzahl für die Stärke, wie Cramer's V, zu bestimmen.

Weitere Einstellungen sind hier noch möglich. Wir klicken Zeilenweise an, sodass dort ein Haken angezeigt wird.

Nun sieht das Fenster wie in kommenden Bild aus. Wir drücken auf Weiter, da wir alle wesentlichen Einstellungen hier vorgenommen haben.

Wir befinden uns nun wieder im Hauptmenu zur Kreuztabelle. Da alle Einstellungen erfolgt sind, drücken wir nun auf OK. Die Berechnungen werden nun ausgeführt.

Die Ergebnisse

In der SPSS-Ausgabe erscheinen nun diverse Tabellen. Zunächst können wir die Ergebnisse des Chi-Qudrat-Test der kommende Tabelle entnehmen. Es zeigt sich ein signifikanter Zusammenhang zwischen Alter und dem präferiertem Frühstück, \chi^2(6)=309,34, p = 0,000. Die Annahme das alle erwarteten Häufigkeiten größer 5 sind ist erfüllt. Dies ist der Fussnote unter der Tabelle zu entnehmen. Hier steht 0 Zellen haben erwartete Häufigkeit kleiner 5.

Kommende Tabelle zeigt die Kontigenztafel beziehungsweise Kreuztabelle zwischen Alter und präferiertem Frühstück. Es zeigen sich zwischen den Altersgruppen Unterschiede in dem bevorzugten Frühstück. So bevorzugen die unter 31 Jährigen einen Frühstücksriegel oder Frühstücksflocken. Dies ist ähnlich in der Gruppe der 31 - 45 Jährigen, wobei hier der Anteil an Personen die Haferbrei bevorzugen schon größer ist als bei den unter 31 Jährigen. In der Klasse der 46 - 60 Jährigen werden Haferbrei oder Frühstücksflocken am häufigsten konsumiert. Bei den über 60 Jährigen hingegen bevorzugt der Großteil Haferbrei.

Als Zusammenhangsmaß zur Beurteilung der Stärke wird Cramer's V bestimmt. Dies ist der kommende Tabelle zu entnehmen. Cramer's V betrug dabei V = 0,42. Dies entspricht einen bedeutsamen Zusammenhang. Werte über 0,3 gelten als starke Assoziationen zwischen zwei nominalen Merkmalen.