Singulärer Gradientenfehler in nls bei korrekten Startwerten

Ich versuche, eine Linie + Exponentialkurve an einige Daten anzupassen. Zunächst habe ich versucht, dies mit künstlichen Daten zu tun. Die Funktion ist: Es ist effektiv eine Exponentialkurve mit einem linearen Abschnitt sowie einem zusätzlichen horizontalen Verschiebungsparameter ( m ). Wenn ich jedoch die Funktion von R verwende, erhalte ich den gefürchteten Fehler " singuläre Gradientenmatrix bei anfänglichen Parameterschätzungen ", auch wenn ich dieselben Parameter verwende, die ich ursprünglich zum Generieren der Daten verwendet habe. Ich habe die verschiedenen Algorithmen ausprobiert, verschiedene Startwerte und versucht zu verwenden

y = ein + b \cdot r^{(x - m)} + c \cdot x

$y=a+b\cdot r^{(x-m)}+c\cdot x$ nls()
optimdie verbleibende Summe der Quadrate zu minimieren, alles ohne Erfolg. Ich habe gelesen, dass ein möglicher Grund dafür eine Überparametrisierung der Formel sein könnte, aber ich glaube nicht, dass dies der Fall ist.
Hat jemand einen Vorschlag für dieses Problem? Oder ist das nur ein unangenehmes Modell?

Ein kurzes Beispiel:

#parameters used to generate the data
reala=-3
realb=5
realc=0.5
realr=0.7
realm=1
x=1:11 #x values - I have 11 timepoint data
#linear+exponential function
y=reala + realb*realr^(x-realm) + realc*x
#add a bit of noise to avoid zero-residual data
jitter_y = jitter(y,amount=0.2)
testdat=data.frame(x,jitter_y)

#try the regression with similar starting values to the the real parameters
linexp=nls(jitter_y~a+b*r^(x-m)+c*x, data=testdat, start=list(a=-3, b=5, c=0.5, r=0.7, m=1), trace=T)

Vielen Dank!

r nonlinear-regression nls

— steiny
quelle

Hinweis: Betrachten Sie den Koeffizienten von

(für ein festes

) und beachten Sie, dass

eine eindimensionale Familie von Lösungen

mit

r^{x}

$r^x$

r

$r$

b r^{- m} = constant

$b r^{-m} = \text{constant}$

(b, m)

$(b,m)$

b = r^{m} \cdot constant

$b = r^m \cdot \text{constant}$

— Whuber

Dies ist kein identifiziertes Modell, es sei denn,

oder

sind irgendwie eingeschränkt. Ich denke, das Erfordernis von

würde die Arbeit erledigen.

b

$b$

r

$r$

r \in (0, 1)

$r \in (0,1)$

— Makro

Antworten:

Das hat mich kürzlich gebissen. Meine Absichten waren die gleichen, mache ein künstliches Modell und teste es. Der Hauptgrund ist der von @whuber und @marco. Ein solches Modell wird nicht identifiziert. Denken Sie daran, dass NLS die Funktion minimiert, um dies zu sehen:

\sum_{ich = 1}^{n} (y_{ich} - ein - b r^{x_{ich} - m} - c x_{ich})^{2}

$\sum_{i=1}^n(y_i-a-br^{x_i-m}-cx_i)^2$

Angenommen, es wird durch den Parametersatz $(a,b,m,r,c)$ minimiert . Es ist unschwer zu erkennen , dass die die Gruppe von Parametern $(a,br^{-m},0,r,c)$ dem gleichen Wert der Funktion geben , minimiert werden. Daher wird das Modell nicht identifiziert, dh es gibt keine eindeutige Lösung.

Es ist auch nicht schwer zu erkennen, warum der Gradient singulär ist. Bezeichnen

f (ein, b, r, m, c, x) = ein + b r^{x - m} + c x

$f(a,b,r,m,c,x)=a+br^{x-m}+cx$

Dann

\frac{\partial f}{\partial b} = r^{x - m}

$\frac{\partial f}{\partial b}=r^{x-m}$

\frac{\partial f}{\partial m} = - b \ln r r^{x - m}

$\frac{\partial f}{\partial m}=-b\ln rr^{x-m}$

und das bekommen wir für alle $x$

b \ln r \frac{\partial f}{\partial b} + \frac{\partial f}{\partial m} = 0.

$b\ln r\frac{\partial f}{\partial b}+\frac{\partial f}{\partial m}=0.$

Daher die Matrix

\begin{aligned} (\begin{matrix} \nabla f (x_{1}) \\ ⋮ \\ \nabla f (x_{n}) \end{matrix}) \end{aligned}

$\begin{align} \begin{pmatrix} \nabla f(x_1)\\\\ \vdots\\\\ \nabla f(x_n) \end{pmatrix} \end{align}$

wird nicht von vollem Rang sein und aus diesem Grund nlswird die singuläre Gradienten-Nachricht geben.

Ich habe über eine Woche damit verbracht, nach Fehlern in meinem Code zu suchen, bis ich bemerkte, dass der Hauptfehler im Modell war :)

— mpiktas
quelle

Ich weiß, das ist uralt, aber ich frage mich, bedeutet das, dass nls nicht für Modelle verwendet werden kann, die nicht identifizierbar sind? Zum Beispiel ein neuronales Netzwerk?

— Count Zero

Fett Chance, ich weiß, aber könnten Sie dies für weniger kalkerinnerliche Leute aufschlüsseln? :). Was ist dann die Lösung für das OP-Problem? Aufgeben und nach Hause gehen?

— theforestecologist

b \cdot r^{x - m}

$b\cdot r^{x-m}$

β \cdot r^{x}

$\beta \cdot r^x$

m

$m$

β

$\beta$

β = b \cdot r^{- m}

$\beta = b\cdot r^{-m}$

@CountZero, grundsätzlich ja, übliche Optimierungsmethoden schlagen fehl, wenn die Parameter nicht identifiziert werden. Neuronale Netze umgehen dieses Problem jedoch, indem sie zusätzliche Beschränkungen hinzufügen und andere interessante Tricks anwenden.

— mpiktas

\frac{\partial f}{\partial m} = - b \ln r r^{x - m}

$\frac {\partial f}{\partial m} = -b \ln{r}\ r^{x-m}$

Die obigen Antworten sind natürlich richtig. Was es wert ist, zusätzlich zu den gegebenen Erklärungen, wenn Sie dies an einem künstlichen Datensatz versuchen, gemäß der nls-Hilfeseite unter: http://stat.ethz.ch/R-manual/R-patched/ library / stats / html / nls.html

Rs nls werden nicht damit umgehen können. Auf der Hilfeseite heißt es speziell:

Warnung

Verwenden Sie nls nicht für künstliche "Null-Residuen" -Daten.

Die Funktion nls verwendet ein Konvergenzkriterium für den relativen Versatz, das die numerische Ungenauigkeit bei den aktuellen Parameterschätzungen mit der restlichen Quadratsumme vergleicht. Dies funktioniert gut mit Daten des Formulars

y = f (x, θ) + eps

(mit var (eps)> 0). Konvergenz auf Daten des Formulars wird nicht angezeigt

y = f (x, θ)

denn das Kriterium läuft darauf hinaus, zwei Komponenten des Rundungsfehlers zu vergleichen. Wenn Sie nls auf künstliche Daten testen möchten, fügen Sie bitte eine Rauschkomponente hinzu, wie im folgenden Beispiel gezeigt.

Also kein Rauschen == nicht gut für Rs nls.

— B_D_Dubbya
quelle

Willkommen auf der Site @B_D_Dubbya. Ich habe mir erlaubt, Ihre Antwort zu formatieren. Ich hoffe, es macht Ihnen nichts aus. Weitere Informationen zum Bearbeiten Ihrer Antworten im Lebenslauf finden Sie hier .

— gung - Wiedereinsetzung von Monica

Ich bin mir dieses Problems bewusst - daher benutze ich die "Jitter" -Funktion, um etwas Rauschen hinzuzufügen

— Steiny,