Angenommen, ich möchte ein Modell erstellen, um eine Art Verhältnis oder Prozentsatz vorherzusagen. Nehmen wir zum Beispiel an, ich möchte die Anzahl der Jungen und Mädchen vorhersagen, die an einer Party teilnehmen, und Merkmale der Party, die ich im Modell verwenden kann, sind etwa die Menge der Werbung für die Party, die Größe des Veranstaltungsortes, ob dort Alkohol auf der Party usw. (Dies ist nur ein erfundenes Beispiel; die Funktionen sind nicht wirklich wichtig.)
Meine Frage ist: Was ist der Unterschied zwischen der Vorhersage eines Verhältnisses und einem Prozentsatz und wie ändert sich mein Modell, je nachdem, welches ich wähle? Ist einer besser als der andere? Ist eine andere Funktion besser als eine? (Die genaue Anzahl der Partys im Verhältnis zum Prozentsatz ist mir eigentlich egal. Ich möchte nur herausfinden, bei welchen Partys es sich eher um "Boy-Partys" oder "Girl-Partys" handelt.) Zum Beispiel Denken:
- Wenn ich einen Prozentsatz vorhersagen möchte (z. B.),
# boys / (# boys + # girls)
sollte ich wahrscheinlich eine logistische Regression anstelle einer linearen Regression verwenden, da mein abhängiges Feature zwischen 0 und 1 liegt. - Wenn ich ein Verhältnis vorhersagen möchte (z. B.
# boys / # girls
oder# boys / (1 + # girls)
um Fehler beim Teilen durch Null zu vermeiden), ist mein abhängiges Merkmal positiv. Sollte ich also möglicherweise eine Art (log?) - Transformation anwenden, bevor ich eine lineare Regression verwende? (Oder ein anderes Modell? Welche Regressionsmodelle werden für positive, nicht gezählte Daten verwendet?) - Ist es generell besser, den Prozentsatz anstelle des Verhältnisses vorherzusagen, und wenn ja, warum?