Der einzige Grund, warum ich sofort daran denken kann, diese Entscheidung zu verlangen, ist die Entscheidung über die Aufnahme einer Variablen als kontinuierlich oder kategorisch in eine Regression.
Zunächst einmal haben Sie manchmal keine Wahl: Zeichenvariablen oder Faktoren (bei denen jemand, der den data.frame bereitstellt, die Entscheidung für Sie getroffen hat) sind offensichtlich kategorisch.
x1
- 1.52.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Ich würde eher sagen, dass eine Variable mit nur 5% eindeutigen Werten sicher als diskret bezeichnet werden kann (aber wie erwähnt: dies ist subjektiv). Dies macht es jedoch nicht zu einem guten Kandidaten für die Aufnahme als kategoriale Variable in Ihr Modell: Wenn Sie 1000000 Beobachtungen und 5% eindeutige Werte haben, bleiben immer noch 50000 'Kategorien' übrig: Wenn Sie dies als kategorial einschließen, werden Sie ' Ich werde verdammt viele Freiheitsgrade verbringen.
Ich denke, dieser Aufruf ist noch subjektiver und hängt stark von der Stichprobengröße und der Methode der Wahl ab. Ohne mehr Kontext ist es schwierig, hier Richtlinien zu geben.
x
0
1
2
E.[ y] = β0+ β11 x1+ β12 x2
xichx = = iE.[ y] = β0+ β1x
E.[ y] = β0+ β1x1+ 2 β1x2
χ2