Die Hauptfrage zum Transformieren von Proportionen (ich verwende als Symbol, ähnlich, aber nicht identisch zu Ihrer Notation) lässt einige allgemeine Kommentare zu.x
Im Folgenden gehe ich davon aus, dass das Hauptmotiv für die Transformation von Proportionen, die Kovariaten sind (Prädiktoren, unabhängige Variablen), darin besteht, die Annäherung an die Linearität der Beziehung zu verbessern oder im Erkundungsmodus eine klarere Vorstellung von der Form oder der Existenz von zu erhalten irgendeine Beziehung. Wie üblich ist es nicht entscheidend, ob eine Kovariate (z. B.) ungefähr normalverteilt ist. (Proportionen sind ein nicht zu entfernter Verwandter von Indikatorvariablen mit den Werten die niemals normal verteilt werden können, und auch Proportionen sind notwendigerweise begrenzt.)0,1
Wenn die Proportionen exakte Nullen oder exakte Einsen erreichen können, ist es wichtig, dass für diese Grenzen eine Transformation definiert wird, die eindeutig ausschließt , da log 0 unbestimmt ist. Darüber hinaus erfordert eine bestimmte Form im Idealfall eine inhaltliche (wissenschaftliche, praktische) Begründung, ohne dass sich aus einer einfachen Analyse ergibt, dass log ( x + c ) sehr empfindlich auf den Wert von c reagiert , wie Sie andeuten. logxlog0log(x+c)c
Dies ist mit Logarithmen zur Basis etwas einfacher zu erkennen. Betrachten wir daher vorübergehend c = 10 k, damit log 10 ( x + 10 k ) x = 0 auf k abbildet .10c=10klog10(x+10k)x=0k
Daher Karten x = 0 auf 0 und x = 1 bis etwa 0.301 , während k = - 3 , c = 0,001 Karten x = 0 bis - 3 und x = 1 , nur ein ganz klein wenig mehr als 0 .k=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
In ähnlicher Weise ist was auch immer bedeutet, dass 0 auf dieselben Grenzen abgebildet wird, wohingegen in einer zunehmend guten Näherung x = 1 auf 0 abgebildet wird .k=−6,−9,0x=10
Die Untergrenze wird also mit immer kleineren addierten Konstanten nach außen gedehnt , während die Obergrenze in etwa gleich bleibt. Solche Transformationen können daher den unteren Teil des Bereichs übermäßig ausdehnen und sogar Ausreißer aus sehr kleinen Werten bei oder nahe 0 erzeugen .c0
Leute, die dies vorschlagen, stellen sich einfach vor, dass (nun zu jeder Basis, die Sie mögen) sich sehr ähnlich verhalten sollte wie log x für kleines c , was eindeutig für großes x gilt , aber überhaupt nicht für kleines x . Ansonsten kann sich die steilere und steilere Steigung von log x in Abhängigkeit von x als x ↓ 0 hier sehr stark beißen.log(x+c)logxcxxlogxxx↓0
Es scheint vorzuziehen, sich auf Transformationen zu konzentrieren, die in der Nähe von und (aus anderen, aber verwandten Gründen) auch in der Nähe von x = 1 allmählicher variieren .x=0x=1
Quadratwurzeln und Kubikwurzeln und andere Potenzen sind für x = 0 , 1 perfekt definiert und helfen oft, wenn Werte nahe 0 gedehnt werden müssen . Aber diese Transformationen sind bekannt und ich konzentriere mich hier mehr auf eine andere Möglichkeit.xpx=0,10
Die Familie der gefalteten Potenzen, die von JW Tukey ( Exploratory Data Analysis , Reading, MA: Addison-Wesley, 1977) popularisiert wurde , ist eine Möglichkeit und ist
. Obwohl kein Zwang gibt es Kräfte zu wählen , die einfach klingende Namen erlauben, die Auswahl p = 1 / 2 (gefaltet root) und p = 1 / 3 (gefaltet Kubikwurzel) scheint die nützlichsten Mitglieder dieser Familie.xp−(1−x)pp=1/2p=1/3
Die Familie ähnelt den bekannten Logit Transformation und in der Tat die Logit ist ein Grenzfall als p zu neigt 0 . Ein wesentlicher Unterschied besteht darin, dass gefaltete Potenzen für x = 0 , 1 und p ≠ 0 definiert sind .logit x=logx−log(1−x)p0x=0,1p≠0
Gefaltete Potenzen, einschließlich des Logits, behandeln die Extremfälle in der Nähe von und 1 schiefsymmetrisch und stellen sie als inverse Sigmoidkurven dar (einige Grafiken unten), die additives und multiplikatives Verhalten mischen und häufig qualitatives (wenn nicht physikalisches, biologisches, wirtschaftliches, was auch immer) wiedergeben. Fakten für das zugrunde liegende Phänomen, dass01
Die Differenz von zu 0,02 kann eine "große Sache" sein (sicher, x ändert sich nur um 0,01 , aber es verdoppelt sich auch).0.010.02x0.01
Die Differenz von zB zu 0,99 kann auch eine "große Sache" sein (sicher, x ändert sich nur um 0,01 , aber der "Bruch ohne" 1 - x halbiert sich auch).0.980.99x0.011−x
Die Differenz von beispielsweise zu 0,51 kann ein "kleinerer Deal" sein (sicher, x ändert sich auch um 0,01 , aber die proportionale Änderung ist viel kleiner).0.500.51x0.01
Dies ist vielleicht am einfachsten zu überlegen, wenn man sich eine zugrunde liegende Dynamik vorstellt: Der zunehmende Anteil der gebildeten Personen benötigt einen großen Schub, beschleunigt und verlangsamt sich dann, wenn er sich der Asymptote der allgemeinen Alphabetisierung nähert. Die zeitliche Kurve kann also einer steigenden oder fallenden Logistik ähneln. Die Tatsache, dass sich die Proportionen und 1 mehr oder weniger langsam nähern, ist natürlich eine von mehreren Motivationen für logit und ähnliche Modelle für proportionale Antworten. Obwohl wir uns hier auf proportionale Kovariaten konzentrieren, können Sigmoide auch hier nützlich sein.01
Gefaltete Potenzen wie die gefaltete Wurzel oder die Kubikwurzel sind nicht so stark sigmoide wie das logit, aber ein wertvoller Vorteil ist, dass sie direkt und einfach ohne Fudges, Kludges oder Nudges für .x=0,1
Wenn Sie sich Ihrem gefälschten, aber scheinbar realistischen Datensatz zuwenden (den ich in meine eigene Lieblingssoftware importiert habe, aber die Analyse in allem Anständigen einfach ist), stellt sich heraus, dass keine dieser Transformationen wirklich hilft. Die grafische Darstellung der Daten gibt jedoch eine deutliche Warnung, dass sogar eine mächtige starke Transformation darstellt, wie auch durch direktes Zeichnen ersichtlich wird.log(x+0.001)
Die zwei Hauptpunkte, die ich ansprechen möchte, sind die folgenden
oft vorgeschlagen und oft scheinbar als harmlos angesehen, ist eine gefährliche Transformation, sofern sie nicht verstanden und oft unangemessen ist, wenn sie die Verteilung für kleines x stark ausdehnt(es sei denn, dies ist wirklich das gewünschte Verhalten).log(x+c)x
Für Ihre Beispieldaten scheint keine Transformation, die ich versucht habe, zu helfen.
Gleichzeitig sind andere Möglichkeiten noch lange nicht ausgeschöpft. (Insbesondere habe ich keine Quadratwurzel oder Kubikwurzel ausprobiert und betont, dass dies bei vielen anderen Problemen offensichtliche und ernstzunehmende Kandidaten sein könnten.)
Die erste Gruppe von Diagrammen zeigt einfach einige Kandidatentransformationen für Proportionen, die sowohl als auch 1 erreichen können . (Ich habe natürliche Logarithmen verwendet, aber die Formen hängen nicht von der gewählten Basis ab.)01
Der zweite Satz von Diagrammen zeigt keine Transformation, die für die Beispieldaten hilfreich ist. (Zum Vergleich ergibt eine einfache Regression der ursprünglichen Daten %, RMSE = 0,994 .)R2=3.7=0.994
Winziges Puzzle. Ihr soll ein Anteil sein, aber seine Werte liegen bei 6 bis 10 .y610
BEARBEITEN: Die Originaldaten konnten hier eingetragen werden, da das OP Daten kurz gepostet, diese aber später wieder entfernt hat.
Andere Fäden, die hier gefaltete Kräfte verwenden, umfassen
Proportionsdaten transformieren: Wenn Bögen in Quadratwurzel nicht ausreichen
Regression: Streudiagramm mit niedrigem R-Quadrat und hohen p-Werten
Zeichnen Sie einen stark verzerrten Datensatz