Analyse von Daten als Intervalle anstelle von Punkten


7

Ich habe einen Datensatz, der nicht als x=x1,,xn, sondern als Paare xinterval=(x1(start),x1(end)),,(xn(start),xn(end)).Für jedes Paar (xi(start),xi(end)), das wahre xi im Intervall (xi(start),xi(end)), aber es ist nicht bekannt wo.

Im Kontext bedeutet dies, dass wir Intervalle haben, in denen wir wissen, dass ein Ereignis xi aufgetreten ist, das uns sagt, dass es nach xi(start), aber vor x ^ {(Ende)} _ i passiert ist xi(end).

Ziel der Analyse ist es, diese Daten zu modellieren oder die Verteilung in irgendeiner Weise zu approximieren. Zunächst werde ich versuchen, die in den Intervallen enthaltenen Informationen zu verwenden, um eine Normalverteilung an die Verteilung der nicht beobachteten Ereignisse x .

Es fällt mir sehr schwer, Informationen über diese Art von Problem zu finden. Ist dies ein bekanntes Forschungsgebiet der statistischen Intervallanalyse?


1
Es ist ein bisschen wie doppelseitige Zensur in der Überlebensanalyse. Aber es ist keine Zeitzensur und Sie haben mehrere Intervalle mit nur einer Beobachtung pro Intervall. Wenn ich in jedem Intervall eine Verteilung für das unbekannte x setzen würde, würde ich die gleichmäßige Verteilung verwenden, da Sie meines Erachtens keinen Grund haben, bestimmte Punkte in den Intervallen anderen vorzuziehen.
Michael R. Chernick

2
Auf dieser Site gibt es ein Tag für die Intervallzensur. Vielleicht helfen Ihnen einige der Antworten dort?
Mdewey

1
Es ist denkbar, dass die Art und Weise , wie die Intervalle erzeugt werden, informativ sein kann. Daher würde ich nur ungern eine Omnibus-Technik zur "Intervallzensierung" auf die Analyse dieser Daten anwenden, bis ich ein besseres Verständnis dafür hätte, was diese Intervalle tatsächlich darstellen. Könnten Sie das näher erläutern? Beispielsweise kürzen viele digitale Messgeräte die Messungen auf eine nächste Potenz von 10, wobei alle Intervalle eine gemeinsame Breite mit vordefinierten Endpunkten haben. In anderen Fällen können die Intervallbreiten aufgrund der Eigenschaften der Messung selbst mit der Messung variieren.
whuber

Antworten:


10

Die Daten werden zensiert , insbesondere intervallzensiert . Die Zensur, insbesondere die Rechtszensur (Anfang, aber kein Ende), ist ein häufiges Merkmal von Zeit-zu-Ereignis-Daten und wird unter Überlebensanalyse (Medizin) oder Zuverlässigkeitsanalyse (Ingenieurwesen) behandelt.

Für die parametrische Modellierung solcher Daten besteht die wichtigste Erkenntnis darin, dass Beiträge zur gemeinsamen Wahrscheinlichkeit aus unzensierten Daten die Form während diejenigen aus zensierten Daten die Form wobei die Dichte und die Verteilungsfunktion ist. Unter der Annahme einer unabhängigen Zensur - zu der Sie nicht springen sollten - ist dies der einzige Teil der Wahrscheinlichkeit, die für eine Schlussfolgerung erforderlich ist, da die Zensurzeiten keine zusätzlichen Informationen zu den Parametern enthalten. Wenn eine Normalverteilung angemessen erscheint, beginnen Sie mit einem Konturdiagramm der Wahrscheinlichkeit gegen den Mittelwert und die Varianzparameter, und verbessern Sie die anfänglichen Schätzungen der maximalen Wahrscheinlichkeit numerisch.

f(xi)
F(xi(end))F(xi(start)),
f()F()

Vielen Dank für die Verbindung zum Begriff Zensur und Intervallzensur. Der Wahrscheinlichkeitsbeitrag als Unterschied zwischen den beiden CDFs war in der Tat meine Vermutung, aber es ist großartig zu sehen, dass er sinnvoll ist. Danke noch einmal!
Kees Mulder

5

Ein guter Ausgangspunkt für die Untersuchung der univariaten Verteilung wäre der nichtparametrische Maximum Likelihood Estimator (NPMLE). Dies ist eine Verallgemeinerung der Kaplan-Meier-Kurven (die selbst eine Verallgemeinerung der empirischen Verteilungsfunktion ist), die Ihnen eine nicht parametrische Schätzung der kumulativen Verteilungsfunktion gibt. Interessanterweise ist diese Schätzung nicht eindeutig (im Gegensatz zu den EDF- oder Kaplan-Meier-Kurven), sondern bis zu einem bestimmten Intervall bekannt. Sie erhalten also ein Paar Schrittfunktionen, die die NPMLE gebunden haben, und nicht eine einzelne Schrittfunktion.

Während dieser Schätzer gut zur Untersuchung der Form einer Verteilung geeignet ist, kann er etwas instabil sein, dh eine hohe Varianz in den Schätzungen. Man kann standardmäßige parametrische Modelle anpassen, es wird jedoch weiterhin empfohlen, die NPMLE zumindest für die Modellprüfung zu verwenden.

Viele der Standard-Überlebensregressionsmodelle sind verfügbar (z. B. proportionale Gefahren, beschleunigte Ausfallzeit und proportionale Quoten). Obwohl die NPMLE eine hohe Varianz für die Schätzungen der Überlebenskurve aufweist, leiden interessanterweise die Regressionsparameter in einem semiparametrischen Modell, das die NPMLE für die Basisverteilung verwendet, nicht unter der Instabilität. Daher sind semiparametrische Regressionsmethoden für Inferenzen sehr beliebt.

@Scortchi und @whuber sprechen wichtige Punkte zur Erzeugung des Beginns und des Endes der Beobachtungsintervalle an ( wie vom OP definiert). Eine vereinfachende Standardannahme (die sorgfältig werden sollte) ist, dass es eine Reihe von Inspektionszeiten gibt, die unabhängig von der tatsächlichen Ereigniszeit / dem tatsächlichen Ergebnis von Interesse (Gleichheit) erzeugt werden tritt auf, wenn wir die Ereigniszeit genau beobachten). Dann beobachten wir nur das Intervall so dassxistart,xiendC.0C.1,...,C.ktC.j,C.j+1tC.j,C.j+1. Wenn es jedoch plausibel erscheint, dass die Ereigniszeit die Inspektionszeit stark beeinflussen könnte, muss bei der Analyse sorgfältig vorgegangen werden. Nehmen wir zum Beispiel an, unser Ereignis von Interesse war der Beginn von Karies und unsere Inspektionen waren Zahnarztbesuche. Wenn wir ziemlich regelmäßig zum Zahnarzt gehen, erscheint die Annahme der Unabhängigkeit vernünftig. Aber wenn wir sehr selten zum Zahnarzt gehen, außer wenn unser Zahn sehr weh tut, dann beeinflusst definitiv !tC.j

Ein kurzes Tutorial zur Verwendung dieser Modelle in meinem R-Paket icenRegfinden Sie hier .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.