Ist die Logit-Funktion immer die beste für die Regressionsmodellierung von Binärdaten?


15

Ich habe über dieses Problem nachgedacht. Die übliche logistische Funktion zum Modellieren von Binärdaten lautet: Die Funktion ist jedoch eine S-förmige Kurve , immer das Beste für die Modellierung der Daten? Vielleicht haben Sie Grund zu der Annahme, dass Ihre Daten nicht der normalen S-förmigen Kurve folgen, sondern einem anderen Kurventyp mit Bereich .(0,1)

log(p1p)=β0+β1X1+β2X2+
(0,1)

Gibt es Forschungen dazu? Vielleicht können Sie es als Probit-Funktion oder ähnliches modellieren, aber was ist, wenn es sich um etwas ganz anderes handelt? Könnte dies zu einer besseren Abschätzung der Auswirkungen führen? Nur ein Gedanke, den ich hatte, und ich frage mich, ob es irgendwelche Untersuchungen dazu gibt.



2
@macro Ich glaube nicht, dass es ein genaues Duplikat ist. Bei dieser Frage geht es nur um logit und probit. dieser fragt auch nach anderen Alternativen.
Peter Flom - Reinstate Monica

Ich stimme dafür, dies offen zu lassen. Der wesentliche Unterschied ich sehe , ist , dass diese Q für bittet Forschung über das Thema von verschiedenen möglichen Verknüpfungsfunktionen in der Statistik. Es ist ein subtiler Unterschied, aber es kann genug sein. @ Glen, Sie können den anderen Q überprüfen, wenn Sie ihn noch nicht gesehen haben. In meiner Antwort spreche ich über verschiedene mögliche Links. Wenn du denkst, dass dieser Q nicht wirklich anders ist, markiere ihn und die Mods können ihn schließen. Wenn Sie sich eine Möglichkeit vorstellen können, die Unterscheidung zwischen dem, was Sie verlangen, und dem Q klarer zu machen, möchten Sie diese möglicherweise bearbeiten.
gung - Reinstate Monica

Ich weiß, dass es kein genaues Duplikat der Frage Logit vs. Probit ist, aber ich dachte, dass Gungs Antwort, die über das hinausging, was von der verknüpften Frage gestellt wurde, den größten Teil der hier gestellten Fragen anspricht, weshalb ich sie als Duplikat geschlossen habe. Es gibt wahrscheinlich andere eng verwandte Themen, aber das ist das erste, das mir in den Sinn gekommen ist.
Makro

Danke für die Kommentare. Ich glaube, meine Frage unterscheidet sich von der vorherigen Frage. Ich bin mit den Probit- und Log-Log-Transformationen sehr vertraut, und die Diskussion aus der vorherigen Frage war für mich sehr informativ. Ich bin jedoch an anderen Verknüpfungsfunktionen (möglicherweise nicht parametrisch?) Interessiert, die in einer Situation möglich sind, in der Sie möglicherweise nicht wissen, dass die Wahrscheinlichkeitskurve einer anderen Verteilung folgt. Ich denke, wenn Interaktionen zwischen den Kovariaten stattfinden, könnte dies eine wichtige Rolle spielen. @ David J. Harris Antwort ist auch hilfreich ...
Glen

Antworten:


15

Menschen verwenden alle Arten von Funktionen, um ihre Daten zwischen 0 und 1 zu halten. Die logarithmischen Gewinnchancen gehen natürlich aus der Mathematik hervor, wenn Sie das Modell ableiten (es wird als "kanonische Verknüpfungsfunktion" bezeichnet), aber Sie können völlig frei damit experimentieren andere Alternativen.

Wie Macro in seinem Kommentar zu Ihrer Frage angedeutet hat, ist eine häufige Wahl ein Probit-Modell , bei dem die Quantilfunktion eines Gaußschen anstelle der logistischen Funktion verwendet wird. Ich habe auch gute Dinge über die Verwendung der Quantilfunktion der Verteilung eines Schülers gehört , obwohl ich es nie ausprobiert habe.t

ttt7

Hoffe das hilft.

Bearbeitet, um hinzuzufügen : Die Diskussion, mit der @Macro verknüpft ist, ist wirklich exzellent. Ich würde es wärmstens empfehlen, wenn Sie sich für mehr Details interessieren.


Die Frage bezieht sich speziell auf "Binärdaten" - nicht auf Daten zwischen 0 und 1. Das Probit-Modell hat im Fall von Binärdaten keine theoretische Rechtfertigung.
Neil G

3
@NeilG, ein Grund für die Verwendung des Probit-Modells ist, dass es eine bequeme Möglichkeit bietet, multivariate Binärdaten (z. B. mit einem gemischten Modell) als Schwellenwertnormalen zu modellieren. In diesem Fall ist die Korrelationsmatrix der zugrunde liegenden Variablen statistisch identifizierbar, während dies im logistischen Fall nicht der Fall ist. Es ist ein bisschen mehr Diskussion hier .
Makro

@Macro: Oh, ich verstehe. Das ist sehr interessant, danke.
Neil G

@ David J. Harris: Meinst du Quintil (oder vielleicht hat Quantil die gleiche Bedeutung), dh die Aufteilung in Stücke von Fünfteln: 20%, 40%, .., 100%?
MSIS

1
@MSIS ein Quintil teilt sich in Quinten, ein Perzentil teilt sich in 100stel und ein Quartil teilt sich in beliebigen Einheiten Siehe en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris

11

Ich sehe keinen Grund, a priori, warum die entsprechende Verknüpfungsfunktion für einen bestimmten Datensatz das Logit sein muss (obwohl das Universum uns im Allgemeinen eher freundlich erscheint). Ich weiß nicht, ob das genau das ist, wonach Sie suchen, aber hier sind einige Artikel, die exotischere Linkfunktionen behandeln:

Offenlegung: Ich kenne dieses Material nicht gut. Ich habe vor ein paar Jahren versucht, mit Cauchit und Scobit zu experimentieren, aber mein Code stürzte immer wieder ab (wahrscheinlich, weil ich kein großartiger Programmierer bin), und es schien für das Projekt, an dem ich arbeitete, nicht relevant zu sein, also habe ich es fallen gelassen .

X


4

Die beste Strategie besteht darin, die Daten im Lichte der aktuellen Entwicklungen zu modellieren (keine Überraschung!).

  • Probit-Modelle stammen aus LD50-Studien - Sie möchten die Dosis eines Insektizids, die die Hälfte der Insekten tötet. Die binäre Antwort ist, ob der Fehler lebt oder stirbt (bei einer bestimmten Dosis). Die Bugs, die bei einer Dosis anfällig sind, sind auch bei niedrigeren Dosen anfällig. Hier kommt die Idee zum Einsatz, die kumulativen Normalwerte zu modellieren.
  • Wenn die binären Beobachtungen in Clustern vorliegen, können Sie ein Beta-Binomial-Modell verwenden. Ben Bolker hat eine gute Einführung in die Dokumentation seines bbmle-Pakets (in R), das dies in einfachen Fällen implementiert. Mit diesen Modellen können Sie die Variation der Daten besser steuern als mit einer Binomialverteilung.
  • Multivariate Binärdaten - die Sortierung, die in mehrdimensionalen Kontingenztabellen zusammengefasst wird - können mithilfe eines logarithmischen linearen Modells analysiert werden. Die Verknüpfungsfunktion ist das Protokoll und nicht die Protokollquote. Einige Leute bezeichnen dies als Poisson-Regression.

Es gibt wahrscheinlich keine Forschung zu diesen Modellen als solchen, obwohl zu jedem dieser Modelle und zu den Vergleichen zwischen ihnen und zu verschiedenen Arten ihrer Schätzung reichlich Forschung betrieben wurde. Was Sie in der Literatur finden, ist, dass es für eine Weile eine Menge Aktivität gibt, da Forscher eine Reihe von Optionen für eine bestimmte Klasse von Problemen in Betracht ziehen und dann eine Methode als überlegen herauskommt.


+1 für Beta-Binomial. Das ist ein großartiges Werkzeug, um es in der Werkzeugkiste zu haben.
David J. Harris

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.