Ich habe Daten mit einem Doppelpeak, die ich zu modellieren versuche, und es gibt genügend Überlappungen zwischen den Peaks, sodass ich sie nicht unabhängig behandeln kann. Ein Histogramm der Daten könnte ungefähr so aussehen:
Ich habe dafür zwei Modelle erstellt: eines verwendet zwei Poisson-Verteilungen und das andere verwendet zwei negative Binomialverteilungen (um die Überdispersion zu berücksichtigen). Wie lässt sich feststellen, welches Modell genauer zu den Daten passt?
Mein erster Gedanke ist, dass ich einen Kolmogorov-Smirnov-Test verwenden könnte, um jedes Modell mit den Daten zu vergleichen, und dann einen Likelihood-Ratio-Test durchführen könnte, um festzustellen, ob eines signifikant besser passt. Macht das Sinn? Wenn ja, bin ich mir nicht ganz sicher, wie ich den Likelihood-Ratio-Test durchführen soll. Ist Chi-Quadrat angemessen und wie viele Freiheitsgrade habe ich?
Wenn es hilft, könnte ein (sehr vereinfachter) R-Code für die Modelle ungefähr so aussehen:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Bearbeiten: Hier ist ein Bild, das die Daten und die Verteilungen erklären kann, die ich besser anpasse. Aus der Visualisierung geht völlig hervor, dass das zweite Modell (das den negativen Binomialdistanz verwendet, um die Überdispersion zu berücksichtigen) besser passt. Ich möchte dies jedoch quantitativ zeigen.
(Rot - Daten, Grün - Modell)