Ein lineares Modell für ein Verhältnis im Verhältnis zum Prozentsatz erstellen?


20

Angenommen, ich möchte ein Modell erstellen, um eine Art Verhältnis oder Prozentsatz vorherzusagen. Nehmen wir zum Beispiel an, ich möchte die Anzahl der Jungen und Mädchen vorhersagen, die an einer Party teilnehmen, und Merkmale der Party, die ich im Modell verwenden kann, sind etwa die Menge der Werbung für die Party, die Größe des Veranstaltungsortes, ob dort Alkohol auf der Party usw. (Dies ist nur ein erfundenes Beispiel; die Funktionen sind nicht wirklich wichtig.)

Meine Frage ist: Was ist der Unterschied zwischen der Vorhersage eines Verhältnisses und einem Prozentsatz und wie ändert sich mein Modell, je nachdem, welches ich wähle? Ist einer besser als der andere? Ist eine andere Funktion besser als eine? (Die genaue Anzahl der Partys im Verhältnis zum Prozentsatz ist mir eigentlich egal. Ich möchte nur herausfinden, bei welchen Partys es sich eher um "Boy-Partys" oder "Girl-Partys" handelt.) Zum Beispiel Denken:

  • Wenn ich einen Prozentsatz vorhersagen möchte (z. B.), # boys / (# boys + # girls)sollte ich wahrscheinlich eine logistische Regression anstelle einer linearen Regression verwenden, da mein abhängiges Feature zwischen 0 und 1 liegt.
  • Wenn ich ein Verhältnis vorhersagen möchte (z. B. # boys / # girlsoder # boys / (1 + # girls)um Fehler beim Teilen durch Null zu vermeiden), ist mein abhängiges Merkmal positiv. Sollte ich also möglicherweise eine Art (log?) - Transformation anwenden, bevor ich eine lineare Regression verwende? (Oder ein anderes Modell? Welche Regressionsmodelle werden für positive, nicht gezählte Daten verwendet?)
  • Ist es generell besser, den Prozentsatz anstelle des Verhältnisses vorherzusagen, und wenn ja, warum?

Abhängig von Ihrer speziellen Anwendung und dem, was Sie modellieren möchten, sollten Sie die Verwendung von Compositional Data Analysis ( en.wikipedia.org/wiki/Compositional_data ) in Betracht ziehen . Es gibt einige subtile Dinge zu beachten, wenn die Merkmale (unabhängige Variablen) zu einer Einheit zusammengefasst werden. Bitte sehen Sie die Arbeit von John Aitchison.
Ctbrown

Antworten:


9

pEINBp

[0,1]

01

Log


15

Die erste Antwort wiederholen. Machen Sie sich nicht die Mühe, umzurechnen - modellieren Sie einfach die Zählungen und Kovariaten direkt.

Wenn Sie dies tun und ein binomiales (oder äquivalent logistisches) Regressionsmodell an die Anzahl der Jungen und Mädchen anpassen, passen Sie bei Auswahl der üblichen Verknüpfungsfunktion für solche Modelle implizit bereits ein (kovariat geglättetes, protokolliertes) Verhältnis von Jungen zu Mädchen an. Das ist der lineare Prädiktor.

Der Hauptgrund für das direkte Modellieren von Zählungen anstelle von Proportionen oder Verhältnissen besteht darin, dass Sie keine Informationen verlieren. Intuitiv sind Sie bei Schlussfolgerungen aus einem beobachteten Verhältnis von 1 (Jungen zu Mädchen) viel sicherer, wenn Sie 100 Jungen und 100 Mädchen sehen, als wenn Sie 2 und 2 sehen. Wenn Sie also Kovariaten haben, haben Sie mehr Informationen über ihre Auswirkungen und möglicherweise ein besseres Vorhersagemodell.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.