Ich habe die Weindaten von hier, die aus 11 numerisch unabhängigen Variablen mit einer abhängigen Bewertung bestehen, die jedem Eintrag mit Werten zwischen 0 und 10 zugeordnet sind. Dies macht es zu einem großartigen Datensatz, ein Regressionsmodell zu verwenden, um die Beziehung zwischen den Variablen und den zugeordneten zu untersuchen Bewertung. Wäre jedoch eine lineare Regression angemessen, oder ist es besser, eine multinomiale / geordnete logistische Regression zu verwenden?
Die logistische Regression scheint in bestimmten Kategorien besser zu sein, dh es handelt sich nicht um eine kontinuierliche abhängige Variable, aber (1) es gibt 11 Kategorien (ein bisschen zu viele?) Und (2) bei der Überprüfung gibt es nur Daten für 6-7 dieser Kategorien, dh die verbleibenden 5-4 Kategorien haben kein Beispiel im Datensatz.
Andererseits sollte die lineare Regression eine Bewertung zwischen 0 und 10 linear abschätzen, was näher zu dem zu sein scheint, was ich herausfinden möchte. Die abhängige Variable ist im Datensatz jedoch nicht stetig.
Welcher Ansatz ist der bessere? Hinweis: Ich verwende R für die Analyse
Bearbeiten Sie, indem Sie einige der in den Antworten genannten Punkte ansprechen:
- Es gibt kein Geschäftsziel, da dies eigentlich für einen Universitätskurs ist. Die Aufgabe besteht darin, einen Datensatz Ihrer Wahl zu analysieren, je nachdem, wie ich es für richtig halte.
- Die Verteilung der Ratings sieht normal aus (Histogramm / QQ-Plot). Die tatsächlichen Werte im Datensatz liegen zwischen 3-8 (obwohl technisch 0-10).