Wie klein sollte eine Menge zu x addiert werden, um zu vermeiden, dass das Protokoll Null wird?

57

Ich habe meine Daten so analysiert, wie sie sind. Jetzt möchte ich meine Analysen betrachten, nachdem ich alle Variablen protokolliert habe. Viele Variablen enthalten viele Nullen. Aus diesem Grund füge ich eine kleine Menge hinzu, um zu vermeiden, dass das Protokoll Null wird.

Bisher habe ich 10 ^ -10 hinzugefügt, und zwar ohne wirklichen Grund, nur weil ich der Meinung war, dass das Hinzufügen einer sehr kleinen Menge ratsam wäre, um den Effekt meiner willkürlich ausgewählten Menge zu minimieren. Einige Variablen enthalten jedoch meistens Nullen und daher, wenn sie protokolliert werden, meistens -23.02. Der Bereich der Bereiche meiner Variablen liegt zwischen 1,33 und 8819,21, und die Häufigkeit von Nullen variiert ebenfalls dramatisch. Daher wirkt sich meine persönliche Wahl der "kleinen Menge" sehr unterschiedlich auf die Variablen aus. Es ist jetzt klar, dass 10 ^ -10 eine völlig inakzeptable Wahl ist, da der größte Teil der Varianz in allen Variablen dann von dieser willkürlichen "kleinen Menge" herrührt.

Ich frage mich, wie ich das besser machen könnte.

Vielleicht ist es besser, die Menge aus den einzelnen Variablenverteilungen abzuleiten? Gibt es Richtlinien, wie groß diese "kleine Menge" sein sollte?

Meine Analysen sind meist einfache Cox-Modelle mit jeder Variablen und Alter / Geschlecht als IVs. Die Variablen sind die Konzentrationen verschiedener Blutfette mit oft erheblichen Variationskoeffizienten.

Bearbeiten : Das Hinzufügen des kleinsten Nicht-Null-Werts der Variablen erscheint für meine Daten praktisch. Aber vielleicht gibt es eine allgemeine Lösung?

Edit 2 : Da die Nullen lediglich Konzentrationen unterhalb der Nachweisgrenze anzeigen, ist es möglicherweise angebracht, sie auf (Nachweisgrenze) / 2 zu setzen.

data-transformation chemometrics

— miura
quelle

4

Warum

die Beobachtungen / Variablen?

\log

$\log$

2

Wenn Sie Ihren Variablen

hinzufügen , werden die Variablen, die auf der ursprünglichen Skala Nullen waren, auf der Protokollskala Nullen sein.

1

$1$

— MånsT

5

Haben Sie dieses Problem mit der Antwortvariablen oder nur den erklärenden Variablen? Wenn dies nur der Fall ist, kann eine Option in Abhängigkeit von Überlegungen zur Probengröße darin bestehen, zusätzliche Blindvariablen hinzuzufügen , die angeben, dass die Konzentration eines bestimmten Analyten unter der Nachweisschwelle liegt. Dies verschlingt Freiheitsgrade, hat aber den Vorteil, dass die Daten nicht beliebig ad hoc ausgewählt werden. Es kann auch Nichtlinearitäten oder Diskontinuitäten in der Nähe der Erkennungsschwelle aufdecken, die andernfalls berücksichtigt würden.

— Kardinal

2

@Procrastinator Log-Skala ist für Konzentrationen aufgrund der exponentiellen Beziehung zwischen Gleichgewichtskonstante und Gibbs-Energie natürlich; in der Tat ist in der "kontinuierlichen" Chemie die Konzentration 0 etwas unwirklich.

2

Eine Alternative wäre, zum Beispiel die Kubikwurzel der Daten zu nehmen - führt Sie nicht bis zum Protokoll, sondern behält Nullen ohne Neuskalierung bei.

— Jbowman

26

Da die Nullen lediglich Konzentrationen unterhalb der Nachweisgrenze anzeigen, wäre es möglicherweise angebracht, sie auf (Nachweisgrenze) / 2 zu setzen

Ich habe nur getippt, dass das, was mir in den Sinn kommt, wo log (häufig) Sinn macht und 0 auftreten kann, Konzentrationen sind, als Sie die 2. Bearbeitung durchgeführt haben. Wie Sie sagen, bedeutet die 0 für gemessene Konzentrationen nur "Ich konnte diese niedrigen Konzentrationen nicht messen".

Randnotiz: meinst du LOQ statt LOD?

$\frac{1}{2}$

$\frac{1}{2}\mathrm{LOQ}$

$\frac{1}{2}\mathrm{LOQ}$
Wenn jedoch der ursprüngliche Messwert verfügbar ist, kann dies eine bessere Vermutung liefern. Schließlich bedeutet LOQ normalerweise nur, dass der relative Fehler 10% beträgt. Darunter enthält die Messung noch Informationen, aber der relative Fehler wird sehr groß.

(blau: LOD, rot: LOQ)
Eine Alternative wäre, diese Messungen auszuschließen. Auch das kann sinnvoll sein,
zB eine Kalibrierkurve. In der Praxis beobachten Sie häufig eine Sigmoidform: Für ein niedriges c ist das Signal ≈ konstant, es liegt ein lineares Zwischenverhalten vor und anschließend die Detektorsättigung.
In dieser Situation können Sie sich auf Aussagen zu Konzentrationen beschränken, die eindeutig im linearen Bereich liegen, da sowohl unter als auch über anderen Prozessen das Ergebnis stark beeinflussen.
Stellen Sie sicher, dass Sie erklären, dass die Daten auf diese Weise ausgewählt wurden und warum.

edit: Was sinnvoll oder akzeptabel ist, hängt natürlich vom Problem ab. Wir sprechen hier hoffentlich von einem kleinen Teil der Daten, der die Analyse nicht beeinflusst.

Vielleicht ist eine schnelle und schmutzige Prüfung: Führen Sie Ihre Datenanalyse mit und ohne Ausschluss der Daten (oder einer von Ihnen vorgeschlagenen Behandlung) durch und prüfen Sie, ob sich etwas wesentlich ändert.

Wenn Sie Änderungen bemerken, haben Sie natürlich Probleme. Aus der Sicht der analytischen Chemie würde ich jedoch sagen, dass Ihr Problem nicht in erster Linie darin besteht, mit welcher Methode Sie mit den Daten umgehen, sondern dass das zugrunde liegende Problem darin besteht, dass die Analysemethode (oder ihr Arbeitsbereich) nicht geeignet war das Problem zur Hand. Es gibt natürlich eine Zone, in der der bessere statistische Ansatz Ihren Tag retten kann, aber am Ende gilt die Annäherung "Müll rein, Müll raus" normalerweise auch für die ausgefalleneren Methoden.

Zitate zum Thema:

Ein Statistiker sagte mir einmal:

Das Problem bei Ihnen (Chemiker / Spektroskopiker) ist, dass Ihre Probleme entweder so schwer sind, dass sie nicht gelöst werden können, oder so einfach, dass es keinen Spaß macht, sie zu lösen.
Fisher über das statistische Post-Mortem von Experimenten

— cbeleites unterstützt Monica
quelle

1

Ich liebe das Zitat unten (+1).

— Setzen Sie Monica

32

Chemische Konzentrationsdaten haben oft Nullen, aber diese stellen keine Nullwerte dar : Es handelt sich um Codes, die auf unterschiedliche (und verwirrende Weise) Weise beide Nicht-Erkennungsmerkmale darstellen (die Messung zeigte mit hoher Wahrscheinlichkeit an, dass der Analyt nicht vorhanden war) und "nicht quantifiziert". Werte (die Messung erkannte den Analyten, konnte jedoch keinen zuverlässigen numerischen Wert liefern). Nennen wir diese "NDs" hier nur vage.

In der Regel gibt es eine Grenze, die mit einer ND verbunden ist , die als "Nachweisgrenze", "Quantifizierungsgrenze" oder (viel ehrlicher) als "Meldegrenze" bezeichnet wird, da das Labor entscheidet , keinen numerischen Wert anzugeben (häufig für legale Zwecke) Gründe dafür). Über alles, was wir wirklich über eine ND wissen, ist, dass der wahre Wert wahrscheinlich unter dem zugehörigen Grenzwert liegt: Es ist fast (aber nicht ganz) eine Form der linken Zensur $1.33$ $0$ $1.33$ $0.5$ $0.1$

In den letzten 30 Jahren wurden umfangreiche Untersuchungen durchgeführt, um herauszufinden, wie solche Datensätze am besten zusammengefasst und ausgewertet werden können. Dennis Helsel veröffentlichte ein Buch zu diesem Thema , Nondetects and Data Analysis (Wiley, 2005), lehrte einen Kurs und veröffentlichte ein RPaket, das auf einigen seiner bevorzugten Techniken basierte. Seine Website ist umfassend.

Dieses Gebiet ist mit Irrtümern und Missverständnissen behaftet. Helsel ist offen darüber: Auf der ersten Seite von Kapitel 1 seines Buches schreibt er:

... Die heute in Umweltstudien am häufigsten verwendete Methode, die Hälfte der Nachweisgrenze zu ersetzen, ist KEINE sinnvolle Methode zur Interpretation zensierter Daten.

Also, was ist zu tun? Sie können diesen guten Rat ignorieren, einige der Methoden in Helsels Buch anwenden und einige alternative Methoden verwenden. Richtig, das Buch ist nicht umfassend und es gibt gültige Alternativen. Allen Werten im Datensatz eine Konstante hinzuzufügen (sie zu "starten") ist eine Konstante. Aber bedenken Sie:

$1$ $1$ $1$
$0$

Ein hervorragendes Werkzeug zur Bestimmung des Startwerts ist ein lognormaler Wahrscheinlichkeitsplot: Abgesehen von den NDs sollten die Daten ungefähr linear sein.
Die Sammlung von NDs kann auch mit einer sogenannten "Delta Lognormal" -Verteilung beschrieben werden. Dies ist eine Mischung aus einer Punktmasse und einem Lognormal.

Wie aus den folgenden Histogrammen der simulierten Werte hervorgeht, sind die zensierte und die Delta-Verteilung nicht gleich. Der Delta-Ansatz ist am nützlichsten für erklärende Variablen in der Regression: Sie können eine "Dummy" -Variable erstellen, um die NDs anzuzeigen, Logarithmen der erkannten Werte zu erstellen (oder sie anderweitig nach Bedarf zu transformieren) und sich nicht um die Ersatzwerte für die NDs zu kümmern .

Histogramme

In diesen Histogrammen wurden ungefähr 20% der niedrigsten Werte durch Nullen ersetzt. Zur Vergleichbarkeit basieren sie alle auf den gleichen 1000 simulierten zugrunde liegenden logarithmischen Normalwerten (oben links). Die Delta-Verteilung wurde erstellt, indem 200 der Werte zufällig durch Nullen ersetzt wurden . Die zensierte Verteilung wurde erstellt, indem die 200 kleinsten Werte durch Nullen ersetzt wurden. Die "realistische" Verteilung entspricht meiner Erfahrung, dass die Berichtsgrenzen in der Praxis tatsächlich variieren (auch wenn dies nicht vom Labor angegeben wird!): Ich habe sie zufällig erstellt (um nur ein wenig, selten mehr als 30 Zoll) beide Richtungen) und ersetzte alle simulierten Werte, die unter ihren Berichtsgrenzen lagen, durch Nullen.

Zur Veranschaulichung der Nützlichkeit des Wahrscheinlichkeitsdiagramms und zur Erläuterung seiner Interpretation werden in der nächsten Abbildung normale Wahrscheinlichkeitsdiagramme angezeigt, die sich auf die Logarithmen der vorhergehenden Daten beziehen.

Wahrscheinlichkeitsdiagramme

$\log(1+0)=0$ ) sind viel zu niedrig eingezeichnet. Links unten ist ein Wahrscheinlichkeitsdiagramm für den zensierten Datensatz mit einem Startwert von 120, der nahe an einer typischen Berichtsgrenze liegt. Die Anpassung in der linken unteren Ecke ist jetzt anständig - wir hoffen nur, dass alle diese Werte in der Nähe der angepassten Linie, aber rechts davon liegen -, aber die Krümmung im oberen Heck zeigt, dass das Hinzufügen von 120 beginnt, die zu ändern Form der Verteilung. Unten rechts sehen Sie, was mit den Delta-Lognormal-Daten passiert: Es gibt eine gute Anpassung an den oberen Schwanz, aber eine ausgeprägte Krümmung nahe der Berichtsgrenze (in der Mitte des Diagramms).

Lassen Sie uns zum Schluss einige der realistischeren Szenarien untersuchen:

Wahrscheinlichkeitsdiagramme 2

Oben links wird der zensierte Datensatz mit den Nullen angezeigt, die auf die Hälfte des Berichtsgrenzwerts festgelegt sind. Es ist eine ziemlich gute Passform. Oben rechts sehen Sie den realistischeren Datensatz (mit zufällig variierenden Berichtsgrenzen). Ein Startwert von 1 hilft nicht, aber für einen Startwert von 120 (in der Nähe des oberen Bereichs der Berichtsgrenzen) ist die Anpassung - links unten - ziemlich gut. Interessanterweise erinnert die Krümmung nahe der Mitte, wenn die Punkte von den NDs auf die quantifizierten Werte ansteigen, an die Delta-Lognormalverteilung (obwohl diese Daten nicht aus einem solchen Gemisch erzeugt wurden). Unten rechts sehen Sie das Wahrscheinlichkeitsdiagramm, das Sie erhalten, wenn die NDs der realistischen Daten durch die Hälfte des (typischen) Berichtsgrenzwerts ersetzt werden. Dies ist die beste Passform, obwohl es in der Mitte ein Delta-Lognormal-ähnliches Verhalten zeigt.

Sie sollten also Wahrscheinlichkeitsdiagramme verwenden, um die Verteilungen zu untersuchen, da anstelle der NDs verschiedene Konstanten verwendet werden. Starten Sie die Suche mit der Hälfte des nominalen, durchschnittlichen Berichtsgrenzwerts und variieren Sie ihn von dort aus nach oben und unten. Wählen Sie eine grafische Darstellung, die rechts unten aussieht: ungefähr eine diagonale Gerade für die quantifizierten Werte, ein schnelles Absinken auf ein niedriges Plateau und ein Plateau von Werten, das (kaum) der Ausdehnung der Diagonale entspricht. Vermeiden Sie jedoch nach den Empfehlungen von Helsel (die in der Literatur stark unterstützt werden) für tatsächliche statistische Zusammenfassungen jede Methode, die die NDs durch eine Konstante ersetzt. Für eine Regression sollten Sie eine Dummy-Variable hinzufügen, um die NDs anzugeben. Bei einigen grafischen Darstellungen funktioniert das konstante Ersetzen von NDs durch den Wert, der bei der Wahrscheinlichkeitsplot-Übung gefunden wurde, gut. Bei anderen grafischen Darstellungen kann es wichtig sein, die tatsächlichen Berichtsgrenzen darzustellen. Ersetzen Sie daher die NDs stattdessen durch ihre Berichtsgrenzen. Sie müssen flexibel sein!

— whuber
quelle

1

Sehr schöne Antwort! Ich stimme vollkommen zu. Und ich kenne das Gefühl, wenn man sich die Daten

— ansieht

1

Unterschiedliche Grenzen : Es gibt verschiedene Ansätze, um sowohl die LOD (Nachweisgrenze -> für qualitative Antworten) als auch die LOQ (Bestimmungsgrenze für quantitative Messungen) zu berechnen. Ich vermute, ein Labor ändert normalerweise nicht die Methode, mit der diese berechnet werden (für dieselbe analytische Methode). Diese Werte werden jedoch bei jeder Berechnung neu berechnet. Wenn die Methode jeden Arbeitstag kalibriert werden muss, haben Sie jeden Tag ein (geringfügig) anderes Limit.

— cbeleites unterstützt Monica

1

Grenzen und rechtliche Gründe für die Nichtbereitstellung niedriger Zahlen: Aus rechtlichen Gründen ist es nicht verboten, (zusätzliche) ausführlichere Informationen wie Rohsignal, entsprechende Konzentration und Konfidenzintervall / Beurteilung der Messung (z. B. "unter LOQ") bereitzustellen. Sie können auch das Analyselabor nach der Kalibrierungskurve fragen. Ich würde erwarten, dass Sie dafür bezahlen müssen, da es zusätzliche Arbeit ist, aber ich würde erwarten, dass dies möglich ist. Der billigere Kompromiss könnte sein, dass sie Ihnen alle Rohdaten liefern und die Datenanalyse Ihnen überlassen. Es kann hilfreich sein, wenn sie wissen, dass Sie Statistiker / Chemiker / Analytiker / ... sind

— cbeleites unterstützt Monica am

1

In meiner Arbeit stoßen wir oft auf Nullen, weil die Daten gerundet sind. In einem solchen Fall handelt es sich um gruppierte Daten, siehe stats.stackexchange.com/questions/26950/…

— Stéphane Laurent

2

Es gibt ein ganzes Gebiet, die "Chemometrie", die diesem und verwandten Themen gewidmet ist, und ganze Bücher wurden geschrieben (und werden noch geschrieben), die sich ausschließlich mit dem befassen, was eine "Nachweisgrenze" ist. Ich habe mehr als 20 verschiedene Definitionen gefunden! Das Problem des erneuten Ausdrückens einer Variablen (z. B. der Logarithmus) ist auch ein zentrales Thema bei der Datenanalyse und Datenexploration. Ein großer Teil vieler Bücher (insbesondere Bücher zur explorativen Datenanalyse) befasst sich mit diesem Thema.

— Whuber

5

@miura

$-\infty$

— EconStats
quelle

3

$i^{th}$ ${\rm mean}(x_i) - n\times{\rm stddev}(x_i)$ $n$

Beachten Sie, dass sich eine solche künstliche Einrichtung auf Ihre Analysen auswirkt. Gehen Sie daher bei der Interpretation sorgfältig vor und verwerfen Sie diese Fälle in einigen Fällen, um Artefakte zu vermeiden.

Die Verwendung der Erkennungsgrenze ist ebenfalls eine vernünftige Idee.

— Itamar
quelle

3

Um zu klären, wie mit dem Null-Log in Regressionsmodellen umgegangen werden soll, haben wir ein pädagogisches Papier verfasst, in dem die beste Lösung und die häufigsten Fehler, die Menschen in der Praxis machen, erläutert werden. Wir haben auch eine neue Lösung für dieses Problem herausgebracht.

Sie finden das Papier, indem Sie hier klicken: https://ssrn.com/abstract=3444996

$\log(y) = \beta \log(x) + \varepsilon$ $\beta$ $y$ $x$

$Y$ $Y + c > 0$

In unserem Artikel stellen wir tatsächlich ein Beispiel vor, in dem das Hinzufügen sehr kleiner Konstanten tatsächlich die höchste Verzerrung bewirkt. Wir geben einen Ausdruck der Voreingenommenheit.

Tatsächlich kann Poisson Pseudo Maximum Likelihood (PPML) als eine gute Lösung für dieses Problem angesehen werden. Man muss den folgenden Prozess berücksichtigen:

$y_i = a_i \exp(\alpha + x_i' \beta)$ $E(a_i | x_i) = 1$

$\beta$ $a_i$ $y_i = 0$ $E(a_i|x_i) = 1$ $E( y_i - \exp(\alpha + x_i' \beta) | x_i) = 0$

$\sum_{i=1}^N ( y_i - \exp(\alpha + x_i' \beta) )x_i' = 0$

$y_i = 0$

$\beta$

$\log( y_i + \exp (\alpha + x_i' \beta)) = x_i' \beta + \eta_i$

Wir zeigen, dass dieser Schätzer unbefangen ist und mit GMM mit jeder Standard-Statistiksoftware einfach geschätzt werden kann. Beispielsweise kann dies geschätzt werden, indem nur eine Codezeile mit Stata ausgeführt wird.

Wir hoffen, dass dieser Artikel helfen kann und freuen uns über Ihr Feedback.

Christophe Bellégo und Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE

— Christophe Bellégo
quelle