Modell 2 ist
Y1=10X1aXb1Xc2+10X1+δ
während Modell 1 ist
10X1(−1+1Y1)=aXb1Xc2+ε,
was gelöst werden kann, damit liestY1
Y1=10X1aXb1Xc2+10X1+ε.
Implizit wird angenommen, dass die Fehler oder unabhängig voneinander unabhängig sind, identische Verteilungen aufweisen und auf Null zentriert sind. εδ
Um die beiden Modelle zu vergleichen , nehmen wir an, dass die Variabilität von wesentlich geringer ist als die Größe von . Wir können dann den Binomialsatz (oder gleichwertig eine Taylor-Reihe) verwenden, um die rechte Seite von Modell 1 (in erster Ordnung in ) als zu approximierenεaXb1Xc2+10X1ε
Y1≈10X1aXb1Xc2+10X1(1−εaXb1Xc2+10X1+⋯).
Im Vergleich zu Modell 2 sehen wir den Unterschied zwischen ihnen in den Fehlerbegriffen:
δ≈−10X1(aXb1Xc2+10X1)2ε.
Dies sind verschiedene Modelle, denn wenn das identische Verteilungen hat, kann das dies nicht - da sie das um Faktoren skalieren, die von den Variablen und abhängen . Umgekehrt kann das nicht , wenn das identische Verteilungen hat .εδεX1X2δε
Um zu entscheiden, welche verwendet werden soll (falls vorhanden), benötigen Sie zusätzliche Informationen zur Verteilung der Fehler. Dies kann auf viele Arten erreicht werden, einschließlich
Theoretische Überlegungen. Wenn der Fehler beispielsweise die von und bekannt ist, dass die Variabilität über einen Wertebereich von (ungefähr) konstant ist , ist das Modell 2 eine gute Wahl.Y1Y1
Analyse wiederholter Messungen.
Überprüfung der diagnostischen Informationen aus jedem Modell (in Bezug auf die mögliche Heteroskedastizität der Residuen).
Die roten Kurven zeigen die korrekten zugrunde liegenden Beziehungen. Die Punkte zeigen simulierte Daten. Ihre vertikalen Abweichungen von den roten Kurven repräsentieren die Fehler. Die Streuung der Fehler in Modell 1 links variiert sichtbar mit den unabhängigen Variablen. Die Dispersion in Modell 2 rechts nicht.
Diese Abbildung zeigt Daten, die mit dem folgenden R
Code simuliert wurden . Um die Darstellung zu vereinfachen, wurden alle Werte von auf einen konstanten Wert gesetzt, wodurch alle Variationen in nur mit Variationen in . Diese Vereinfachung ändert nichts an der Art der Unterschiede zwischen den beiden Modellen.X2Y1X1
a <- 1
b <- 2
c <- 3
n <- 250
sigma <- 2
#
# Generate data according to two models.
#
set.seed(17)
x1 <- rgamma(n, 2) + 1
x2 <- rep(1, n)
epsilon <- rnorm(n, sd=sigma)
y.m1 <- 10 * x1 / (a * x1^b * x2^c + 10*x1 + epsilon)
# (Make them have comparable errors on average.)
tau <- mean(abs(-10 * x1 / (a * x1^b * x2^c + 10*x1)^2))
delta <- rnorm(n, sd=tau)
y.m2 <- 10 * x1 / (a * x1^b * x2^c + 10*x1) + delta
#
# Plot the simulated data.
#
reference <- function() curve(10 * x / (a*x^b + 10*x), add=TRUE, col="Red", lwd=2)
par(mfrow=c(1,2))
plot(x1, y.m1, main="Model 1", xlab="X1", ylab="Y1", col="#00000070")
reference()
plot(x1, y.m2, main="Model 2", xlab="X1", ylab="Y1", col="#00000070")
reference()