Antworten:
Es gibt einen Unterschied zwischen einer binären Variablen als abhängige Variable und einer Proportion als abhängige Variable.
Binäre abhängige Variable :
Anteil als abhängige Variable :
Dies hängt davon ab, wie nahe die Antworten in verschiedenen Gruppen bei 0 oder 100% liegen. Wenn es viele Extremwerte gibt (dh viele auf 0 oder 100% gestapelte Werte), ist dies schwierig. (Wenn Sie die "Nenner", dh die Anzahl der Subjekte, aus denen die Prozentsätze berechnet werden, nicht kennen, können Sie ohnehin keine Ansätze für Kontingenztabellen verwenden.) Wenn die Werte in Gruppen sinnvoller sind, können Sie die umwandeln Antwortvariable (zB klassische Arkussinus-Quadratwurzel oder vielleicht Logit-Transformation). Es gibt eine Vielzahl von grafischen (bevorzugten) und Nullhypothesentests (weniger bevorzugten) Ansätzen, um zu entscheiden, ob Ihre transformierten Daten den Annahmen von ANOVA angemessen entsprechen (Homogenität von Varianz und Normalität, erstere wichtiger als letztere). Grafische Tests: Boxplots (Homogenität der Varianz) und QQ-Plots (Normalität) [Letzteres sollte in Gruppen oder auf Residuen durchgeführt werden]. Nullhypothesentests: zB Bartlett- oder Fligner-Test (Varianzhomogenität), Shapiro-Wilk, Jarque-Bera usw.
Sie müssen die Rohdaten haben, damit die Antwortvariable 0/1 ist (nicht rauchen, rauchen). Dann können Sie die binäre logistische Regression verwenden. Es ist nicht korrekt, den BMI in Intervallen zu gruppieren. Die Grenzwerte sind nicht korrekt, existieren wahrscheinlich nicht, und Sie testen nicht offiziell, ob der BMI mit dem Rauchen zusammenhängt. Sie testen derzeit, ob der BMI mit einem Großteil der verworfenen Informationen mit dem Rauchen zusammenhängt. Sie werden feststellen, dass insbesondere die äußeren BMI-Intervalle recht heterogen sind.
Wenn Sie eine gewöhnliche ANOVA für proportionale Daten durchführen, ist es wichtig, die Annahme homogener Fehlervarianzen zu überprüfen. Wenn (wie bei Prozentangaben üblich) die Fehlervarianzen nicht konstant sind, ist eine realistischere Alternative die Beta-Regression, die diese Heteroskedastizität im Modell erklären kann. In diesem Artikel werden verschiedene alternative Möglichkeiten für den Umgang mit einer Antwortvariablen beschrieben, die als Prozentsatz oder Anteil angegeben ist: http://www.ime.usp.br/~sferrari/beta.pdf
Wenn Sie R verwenden, kann das Paket betareg nützlich sein.