Unvoreingenommene Schätzung der Kovarianzmatrix für mehrfach zensierte Daten


22

Chemische Analysen von Umweltproben werden im Folgenden häufig an Meldegrenzen oder verschiedenen Nachweis- / Bestimmungsgrenzen zensiert. Letztere können variieren, normalerweise proportional zu den Werten anderer Variablen. Beispielsweise muss möglicherweise eine Probe mit einer hohen Konzentration einer Verbindung zur Analyse verdünnt werden, was zu einem proportionalen Aufpumpen der Zensurgrenzwerte für alle anderen Verbindungen führt, die zur gleichen Zeit in dieser Probe analysiert werden. Als ein anderes Beispiel kann manchmal das Vorhandensein einer Verbindung die Reaktion des Tests auf andere Verbindungen verändern (eine "Matrixinterferenz"); Wenn dies vom Labor festgestellt wird, werden die Meldegrenzen entsprechend erhöht.

Ich suche einen praktischen Weg, um die gesamte Varianz-Kovarianz-Matrix für solche Datensätze abzuschätzen, insbesondere wenn viele der Verbindungen zu mehr als 50% zensiert werden, was häufig der Fall ist. Ein herkömmliches Verteilungsmodell besteht darin, dass die Logarithmen der (wahren) Konzentrationen multinormal verteilt sind, und dies scheint in der Praxis gut zu passen, so dass eine Lösung für diese Situation nützlich wäre.

(Mit "praktisch" meine ich eine Methode, die zuverlässig in mindestens einer allgemein verfügbaren Softwareumgebung wie R, Python, SAS usw. so codiert werden kann, dass sie schnell genug ausgeführt werden kann, um iterative Neuberechnungen zu unterstützen, wie sie beispielsweise bei Mehrfachimputationen auftreten. und die einigermaßen stabil ist (weshalb ich eine BUGS-Implementierung nur ungern untersuchen möchte, obwohl Bayes'sche Lösungen im Allgemeinen erwünscht sind).

Vielen Dank im Voraus für Ihre Gedanken zu diesem Thema.


Nur damit ich das Zensurproblem richtig verstehe: Wenn Sie eine Probe verdünnen, sinkt die Konzentration einer Verbindung so stark, dass das Testinstrument ihre Anwesenheit möglicherweise nicht mehr erkennen kann. Ist das eine genaue Umformulierung des Zensurproblems?

Ja, das ist richtig: Durch Verdünnung um den Faktor D werden alle Nachweisgrenzen ebenfalls um den Faktor D erhöht. (Das Problem der Matrixinterferenz ist schwieriger zu quantifizieren und die allgemeine Situation ist äußerst komplex. Um dies zu vereinfachen, ist das herkömmliche Modell, dass eine Reihe von Tests an einer Stichprobe einen Vektor ergibt (x [1], ..., x [k ]) wobei x [i] entweder reelle Zahlen oder Intervalle von reellen Zahlen sind, typischerweise mit einem linken Endpunkt bei -infinity; ein Intervall kennzeichnet eine Menge, in der der wahre Wert angenommen wird.)
whuber

Warum würden die Erkennungsgrenzen steigen? Sind sie nicht eher ein Merkmal des Prüfgeräts als des Prüflings?

Angenommen, die Nachweisgrenze eines Instruments liegt bei 1 Mikrogramm pro Liter (ug / l). Eine Probe wird 10: 1 verdünnt (mit großer Genauigkeit, damit wir uns hier keine Gedanken über Fehler machen) und das Instrument zeigt "<1" an. das heißt, für die verdünnte Probe nicht nachweisbar. Das Labor gibt an, dass die Konzentration in der Probe weniger als 10 × 1 = 10 μg / l beträgt, und meldet dies als solche. das heißt, als "<10".
whuber

1
@amoeba Ich sehe, ich hätte diese Dinge in der Frage selbst erklären sollen. Die Antworten sind: PCA; Die Dimensionalität variiert zwischen 3 und einigen hundert. Die Probengrößen überschreiten die Dimensionalität immer erheblich, aber die Zensierungsraten können sehr hoch sein (es ist erforderlich, bis zu 50% und bis zu 95% handhaben zu können).
whuber

Antworten:


3

Ich habe das Problem der Matrixinterferenz noch nicht vollständig verinnerlicht, aber hier ist ein Ansatz. Lassen:

Y. ist ein Vektor, der die Konzentration aller Zielverbindungen in der unverdünnten Probe darstellt.

Z ist der entsprechende Vektor in der verdünnten Probe.

dd ist der Verdünnungsfaktor, dh die Probe wird mit : 1 verdünnt .d

Unser Modell ist:

Y.N(μ,Σ)

Z=Y.d+ϵ

Dabei steht für den Fehler aufgrund von Verdünnungsfehlern.ϵN(0,σ2 ich)

Daraus folgt:

ZN(μd,Σ+σ2 ich)

Bezeichne die obige Verteilung von mit .f Z ( . )ZfZ(.)

Sei die beobachtete Konzentration und der Schwellenwert des Testinstruments, unter dem es keine Verbindung nachweisen kann. Dann haben wir für die -Verbindung:τ i t hOτichth

Oich=Zichich(Zich>τ)+0ich(Zichτ)

Ohne Verlust der Allgemeinheit seien die ersten Verbindungen so, dass sie unterhalb der Schwelle liegen. Dann kann die Wahrscheinlichkeitsfunktion geschrieben werden als:k

L(O1,...Ok,Ok+1,...On|-)=[ich=1ich=kPr(Zichτ)][ich=k+1ich=nf(Oich|-)]

woher

f(Oich|-)=jichfZ(Oich|-)ich(Oich>τ)

Bei der Schätzung kommt es dann darauf an, entweder die maximale Wahrscheinlichkeit oder Bayes'sche Ideen zu verwenden. Ich bin mir nicht sicher, wie gut das oben genannte funktioniert, aber ich hoffe, es gibt Ihnen einige Anregungen.


Vielen Dank für diesen Gedanken. Dies ist in der Tat ein standardmäßiger und gut dokumentierter Ansatz für die Mehrfachzensur. Eine Schwierigkeit liegt in seiner Unlösbarkeit: Diese Integrale sind bekanntermaßen schwer zu berechnen. Auch hier lauert ein Modellierungsproblem: Der Wert von d ist normalerweise positiv mit Y korreliert , wie im ersten Absatz meiner Beschreibung impliziert.
Whuber

2

Eine weitere rechnerisch effizientere Option wäre die Anpassung der Kovarianzmatrix durch Momentananpassung unter Verwendung eines Modells, das als "dichomisiertes Gauß-Modell" bezeichnet wird, das eigentlich nur ein Gauß-Copula-Modell ist.

Ein kürzlich veröffentlichter Aufsatz von Macke et al. 2010 beschreibt ein Verfahren in geschlossener Form zur Anpassung dieses Modells, das nur die (zensierte) empirische Kovarianzmatrix und die Berechnung einiger bivariater normaler Wahrscheinlichkeiten umfasst. Dieselbe Gruppe (Bethge-Labor am MPI Tübingen) hat auch hybride diskrete / kontinuierliche Gauß-Modelle beschrieben, die wahrscheinlich das sind, was Sie hier wollen (dh da die Gauß-Wohnmobile nicht vollständig "dichotomisiert" sind - nur solche unterhalb der Schwelle).

Entscheidend ist, dass dies kein ML-Schätzer ist, und ich fürchte, ich weiß nicht, wie seine Verzerrungseigenschaften sind.


@jp Danke: Ich werde das untersuchen. (Es kann einige Zeit dauern ...)
whuber

1

Wie viele Verbindungen enthält Ihre Probe? (Oder wie groß ist die betreffende Kovarianzmatrix?)

Alan Genz hat einen sehr guten Code in einer Vielzahl von Sprachen (R, Matlab, Fortran; siehe hier ) zur Berechnung von Integralen multivariater normaler Dichten über Hyperrechtecke (dh die Arten von Integralen, die Sie zur Bewertung der Wahrscheinlichkeit benötigen, wie von angegeben) user28).

Ich habe diese Funktionen ("ADAPT" und "QSIMVN") für Integrale bis zu 10-12 Dimensionen verwendet, und mehrere Funktionen auf dieser Seite bieten Integrale (und zugehörige Ableitungen, die Sie möglicherweise benötigen) für Probleme bis zur Dimension 100 an Sie wissen nicht, ob das für Ihre Zwecke ausreicht, aber in diesem Fall können Sie wahrscheinlich Schätzungen der maximalen Wahrscheinlichkeit anhand des Gradientenaufstiegs finden.


Oh, Entschuldigung - ich bin neu hier und habe nicht bemerkt, wie lange es her ist - wahrscheinlich zu spät, um viel Hilfe zu leisten!
Jpillow

@jp Dies ist ein aktuelles wichtiges Problem, daher ist die zwischen Frage und Antwort verstrichene Zeit von geringer Bedeutung. Vielen Dank für Ihre Antwort!
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.