Diese Frage könnte hier oder auf SO vielleicht gehen ...
Angenommen, Ihr Trainingsdatensatz enthält sowohl kategoriale als auch kontinuierliche Daten wie dieses Setup:
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
Und die vorherzusagende abhängige Variable sind die jährlichen Tierarztkosten. Ich bin etwas verwirrt über die spezifischen Techniken, die für den Umgang mit einem solchen Datensatz verfügbar sind. Welche Methoden werden üblicherweise verwendet, um mit Datensätzen umzugehen, die eine Mischung aus kontinuierlichen und kategorialen Daten sind?