Wie man Daten mit unbekannter Verbreitung normalisiert


12

Ich versuche, die am besten geeignete charakteristische Verteilung von wiederholten Messdaten eines bestimmten Typs zu finden.

In meinem Fachgebiet der Geologie verwenden wir häufig die radiometrische Datierung von Mineralien aus Proben (Gesteinsbrocken), um herauszufinden, wie lange es her ist, dass ein Ereignis stattgefunden hat (das Gestein hat sich unter eine Schwellentemperatur abgekühlt). In der Regel werden von jeder Probe mehrere (3-10) Messungen durchgeführt. Dann werden der Mittelwert und die Standardabweichung σ genommen. Dies ist Geologie, daher kann das Abkühlungsalter der Proben je nach Situation zwischen 10 5 und 10 9 Jahren liegen.μσ105109

Ich habe jedoch Grund zu der Annahme, dass die Messungen nicht Gauß'sch sind: Ausreißer, die entweder willkürlich oder nach einem Kriterium wie Peirces Kriterium [Ross, 2003] oder Dixons Q-Test [Dean und Dixon, 1951] deklariert wurden , sind fair häufig (sagen wir 1 von 30) und diese sind fast immer älter, was darauf hinweist, dass diese Messungen charakteristisch nach rechts verschoben sind. Es gibt wohlverstandene Gründe dafür, die mit mineralogischen Verunreinigungen zusammenhängen.

Durchschnittsalter vs. Durchschnittsalter der Stichprobe.  Rote Linie zeigt Mittelwert = Median an.  Beachten Sie ältere Mittelwerte, die durch versetzte Messungen verursacht wurden.

μσ

Ich frage mich, wie das am besten geht. Bisher habe ich eine Datenbank mit etwa 600 Proben und 2 bis 10 (oder so) Wiederholungsmessungen pro Probe. Ich habe versucht, die Stichproben zu normalisieren, indem ich sie durch den Mittelwert oder den Median dividierte und dann die Histogramme der normalisierten Daten betrachtete. Dies führt zu vernünftigen Ergebnissen und scheint darauf hinzudeuten, dass die Daten typisch log-Laplace sind:

Bildbeschreibung hier eingeben

Ich bin mir jedoch nicht sicher, ob dies die richtige Vorgehensweise ist oder ob es Vorbehalte gibt, von denen ich nichts weiß, die meine Ergebnisse möglicherweise verzerren, sodass sie so aussehen. Hat jemand Erfahrung mit solchen Dingen und kennt sich mit Best Practices aus?


4
Da "normalisieren" in solchen Zusammenhängen verschiedene Bedeutungen hat, was genau meinen Sie mit "normalisieren"? Welche Informationen versuchen Sie aus den Daten herauszuholen?
Glen_b -Reinstate Monica

1
@ Glen_b: Mit "Normalisieren" meine ich einfach die Skalierung aller gemessenen Alter einer Stichprobe nach dem Median (oder dem Mittelwert oder was auch immer). Es gibt experimentelle Beweise dafür, dass die Dispersion in den Proben mit dem Alter linear zunimmt. Ich möchte aus den Daten herausfinden, ob diese Art der Messung am besten durch eine normale oder logarithmische Normalität oder eine Beta-Verteilung oder eine beliebige Verteilung gekennzeichnet ist, damit der genaueste Ort und Maßstab abgeleitet werden kann, oder L1 vs. L2-Regression gerechtfertigt usw. In diesem Beitrag frage ich mich, wie ich Daten, die ich beschrieben habe, aufnehmen und untersuchen kann.
Cossatot

1
Ich habe keine Expertise auf diesem Gebiet, aber Ihre Grafiken und der Gedanke, den Sie in diese setzen, sehen gut aus. Sie haben es vielleicht schon gesehen, aber der Wikipedia-Artikel über Log-Laplace verweist auf eine nette Veröffentlichung, die Ihre Frage nicht direkt anspricht
Wayne

Ich bin mir nicht sicher, ob ich das vollständig verstehe, aber vielleicht hilft Bootstrapping? Wenn Sie die Varianz usw. Ihrer Distribution mithilfe von Bootstrapping-Methoden wiederherstellen, können Sie die wiederhergestellten Informationen verwenden, um Ihre Daten zu normalisieren. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Antworten:


1

Haben Sie darüber nachgedacht, den Mittelwert der (3-10) Messungen aus jeder Probe zu ermitteln? Können Sie dann mit der resultierenden Verteilung arbeiten - welche der t-Verteilung angenähert wird, welche der Normalverteilung für größeres n angenähert wird?


1

Ich glaube nicht, dass Sie mit Normalisieren meinen, was es normalerweise bedeutet, was normalerweise so etwas wie Normalisieren des Mittelwerts und / oder der Varianz und / oder Weißfärbung ist.

Ich denke, Sie versuchen, eine nichtlineare Neuparametrisierung und / oder Funktionen zu finden, mit denen Sie lineare Modelle für Ihre Daten verwenden können.

Dies ist nicht trivial und hat keine einfache Antwort. Deshalb bekommen Datenwissenschaftler viel Geld ;-)

Ein relativ einfacher Weg, nichtlineare Merkmale zu erzeugen, besteht in der Verwendung eines vorwärtsgerichteten neuronalen Netzwerks, bei dem die Anzahl der Schichten und die Anzahl der Neuronen pro Schicht die Kapazität des Netzwerks zur Erzeugung von Merkmalen steuert. Höhere Kapazität => mehr Nichtlinearität, mehr Überanpassung. Geringere Kapazität => mehr Linearität, höhere Vorspannung, geringere Varianz.

Eine andere Methode, mit der Sie etwas mehr Kontrolle haben, ist die Verwendung von Splines.

Schließlich könnten Sie solche Features von Hand erstellen, was Sie meines Erachtens versuchen, aber dann gibt es keine einfache Antwort auf diese Frage: Sie müssen die Daten sorgfältig analysieren, nach Mustern suchen und so weiter .


Normalisieren hat verschiedene Bedeutungen in Mathematik und Naturwissenschaften. Zu behaupten, dass die eine Bedeutung, die persönlich am bekanntesten ist, Standard ist, ist das, wozu die meisten Menschen versucht sind, aber es wird sich nicht mit anderen waschen. Im Ernst, dies fängt thematisch an, weicht dann aber ab. Wo ist der Hinweis auf Interesse an nichtlinearen Modellen? Neuronale Netze? Splines? Was haben diese mit der Identifizierung einer Distribution oder Distributionsfamilie zu tun, was ist die Frage? Ich kann die Verbindung nicht sehen, daher empfehle ich, nicht relevante Elemente zu kürzen oder zu erweitern, um zu zeigen, wie relevant sie sind.
Nick Cox

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.