Ich möchte Daten aus verschiedenen Quellen kombinieren.
Angenommen, ich möchte eine chemische Eigenschaft (z. B. einen Verteilungskoeffizienten ) abschätzen :
Ich habe einige empirische Daten, die aufgrund von Messfehlern um den Mittelwert variieren.
Und zweitens habe ich ein Modell, das eine Schätzung aus anderen Informationen vorhersagt (das Modell weist auch einige Unsicherheiten auf).
Wie kann ich diese beiden Datensätze kombinieren? [Die kombinierte Schätzung wird in einem anderen Modell als Prädiktor verwendet].
Metaanalyse und Bayes'sche Methoden scheinen geeignet zu sein. Ich habe jedoch nicht viele Referenzen und Ideen zur Implementierung gefunden (ich verwende R, bin aber auch mit Python und C ++ vertraut).
Vielen Dank.
Aktualisieren
Ok, hier ist ein realeres Beispiel:
Um die Toxizität einer Chemikalie (typischerweise ausgedrückt als = Konzentration, bei der 50% der Tiere sterben) Laborexperimente durchgeführt. Glücklicherweise werden die Ergebnisse der Experimente in einer Datenbank (EPA) gesammelt .
Hier einige Werte für das Insektizid Lindan :
### Toxicity of Lindane in ug/L
epa <- c(850 ,6300 ,6500 ,8000, 1990 ,516, 6442 ,1870, 1870, 2000 ,250 ,62000,
2600,1000,485,1190,1790,390,1790,750000,1000,800
)
hist(log10(epa))
# or in mol / L
# molecular weight of Lindane
mw = 290.83 # [g/mol]
hist(log10(epa/ (mw * 1000000)))
Es gibt jedoch auch einige Modelle zur Vorhersage der Toxizität anhand chemischer Eigenschaften ( QSAR ). Eines dieser Modelle sagt die Toxizität anhand des Octanol / Wasser-Verteilungskoeffizienten ( ) voraus :
Der Verteilungskoeffizient von Lindan beträgt und die vorhergesagte Toxizität ist .
lkow = 3.8
mod1 <- -0.94 * lkow - 1.33
mod1
Gibt es eine gute Möglichkeit, diese beiden unterschiedlichen Informationen (Laborexperimente und Modellvorhersagen) zu kombinieren?
hist(log10(epa/ (mw * 1000000)))
abline(v = mod1, col = 'steelblue')
Das kombinierte wird später in einem Modell als Prädiktor verwendet. Daher wäre ein einzelner (kombinierter) Wert eine einfache Lösung.
Eine Distribution kann jedoch auch nützlich sein - wenn dies bei der Modellierung möglich ist (wie?).