Ich bin relativ neu in R und versuche, ein Modell an Daten anzupassen, die aus einer kategorialen Spalte und einer numerischen (ganzzahligen) Spalte bestehen. Die abhängige Variable ist eine fortlaufende Zahl.
Die Daten haben das folgende Format:
predCateg, predIntNum, ResponseVar
Die Daten sehen ungefähr so aus:
ranking, age_in_years, wealth_indicator
category_A, 99, 1234.56
category_A, 21, 12.34
category_A, 42, 234.56
....
category_N, 105, 77.27
Wie würde ich dies (vermutlich mit einem GLM) in R modellieren?
[[Bearbeiten]]
Mir ist gerade eingefallen (nachdem ich die Daten gründlicher analysiert habe), dass die kategoriale unabhängige Variable tatsächlich geordnet ist. Ich habe daher die zuvor gegebene Antwort wie folgt geändert:
> fit2 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years, data=amort2)
>
> fit2
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years,
data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q ordered(ranking).C age_in_years
0.0578500 -0.0055454 -0.0013000 0.0007603 0.0036818
Degrees of Freedom: 39 Total (i.e. Null); 35 Residual
Null Deviance: 0.004924
Residual Deviance: 0.00012 AIC: -383.2
>
> fit3 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years + ordered(ranking)*age_in_years, data=amort2)
> fit3
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years +
ordered(ranking) * age_in_years, data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q
0.0578500 -0.0018932 -0.0039667
ordered(ranking).C age_in_years ordered(ranking).L:age_in_years
0.0021019 0.0036818 -0.0006640
ordered(ranking).Q:age_in_years ordered(ranking).C:age_in_years
0.0004848 -0.0002439
Degrees of Freedom: 39 Total (i.e. Null); 32 Residual
Null Deviance: 0.004924
Residual Deviance: 5.931e-05 AIC: -405.4
Ich bin ein bisschen verwirrt darüber ordered(ranking).C
, was ordered(ranking).Q
und was ordered(ranking).L
in der Ausgabe bedeutet, und würde mich über Hilfe beim Verständnis dieser Ausgabe und deren Verwendung zur Vorhersage der Antwortvariablen freuen.
factor(ranking)
nichtas.factor(ranking)
?