Ich studiere Naturwissenschaften und meine statistischen Kenntnisse sind eher oberflächlich.
Problem
Ich musste einen Datensatz finden und nach besten Kräften als Aufgabe für meinen Statistikkurs analysieren. Dies ist keine Aufgabe mehr, ich brauche nur Hilfe bei der Interpretation, warum ich meine Analyse schlecht gemacht habe und was ich stattdessen hätte tun sollen.
Ich habe einen kategorialen Datensatz mit Beschäftigungsquoten in Neuseeland verwendet, um ihn in einer 2x2-Kontingenztabelle anzuordnen und den Pearson-Chi-Quadrat-Test und den genauen Fisher-Test zu verwenden, um zu testen, ob das Geschlecht mit der Beschäftigung korreliert.
Was ich beantworten möchte
- Verstehen Sie, warum ich den Chi-Quadrat-Test und den genauen Fisher-Test für dieses Problem nicht verwenden kann, und erfahren Sie, was ich stattdessen hätte verwenden sollen. "Odds-Ratio als Funktion der Zeit", nehme ich an? Irgendwelche nützlichen Links dazu, perfekt in R?
- Verstehen Sie den Kommentar "Sequentielle Korrelation" zum ersten Teil der Aufgabe und was genau hätte ich tun sollen.
Weg, um mir zu helfen # 1 (kürzer)
So sehen unsere Daten aus (basierend auf einer Volkszählung):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Ich habe einen Chi-Quadrat-Test und einen genauen Fisher-Test in R durchgeführt, wobei angenommen wurde, dass der erhaltene p-Wert mir die Wahrscheinlichkeit einer solchen Verteilung von Arbeitsplätzen (oder eines weiteren Extrems) angibt, vorausgesetzt, dass die Null wahr ist (Männer und Frauen) gleiche Chancen haben, einen Job zu bekommen). Ich habe einen sehr kleinen p-Wert erhalten, und der Fisher-Test ergab eine Quote von 1,16, was bedeutet, dass eine Korrelation besteht und insbesondere Männer mit 16% höherer Wahrscheinlichkeit einen Job in Neuseeland finden.
Laut meinem Dozenten habe ich diese Tests jedoch unangemessen verwendet. Ich habe nicht ganz verstanden, warum, aber ich glaube, er hat gesagt, dass diese Tests Unabhängigkeit voraussetzen, und weil in Neuseeland eine bestimmte Anzahl von Jobs verfügbar ist, sind unsere Stichproben nicht unabhängig ... Ich bin mir jedoch nicht sicher (Sie) kann sein unten zitiertes Feedback sehen).
Weg, um mir zu helfen # 2 (länger)
Wenn Sie etwas Freizeit haben, würde ich mich sehr freuen, wenn Sie sich die gesamte Aufgabe ansehen könnten. Ich werde auch das Feedback des Dozenten geben. Wenn Sie es also für mich interpretieren könnten, wäre es großartig! Die Aufgabe ist für einen Mathematiker / Statistiker sehr einfach, es gibt nur zwei Fragen, es ist nur voller Polsterung, wo ich zu zeigen versuchte, dass ich weiß, was ich tue. Sie können das meiste davon überspringen.
Hier ist der Link zu einer PDF-Datei mit der Aufgabe, die mir nicht gelungen ist: Statistikzuweisung.pdf .
Feedback des Dozenten
Ihre Abbildung 1 zeigt eine sequentielle Korrelation, was der wahre Grund ist, warum die lineare Regression nicht funktioniert. Weder Fischertest noch Chi-Quadrat sind gut für Ihren 2x2-Tisch. Dies liegt daran, dass Sie die Homogenität testen möchten, aber die Null wegen Nichtunabhängigkeit ablehnen (was nicht interessant ist). Die Unterscheidung zwischen den beiden ist hier irrelevant (sie sind in jedem Fall asymptotisch identisch). Sie hätten das Quotenverhältnis als Funktion der Zeit zeichnen können.