Kann der empirische Hessische Wert eines M-Schätzers unbestimmt sein?


15

Jeffrey Wooldridge sagt in seiner ökonometrischen Analyse von Querschnitts- und Paneldaten (Seite 357), dass der empirische Hessische Wert "für die bestimmte Stichprobe, mit der wir arbeiten, nicht garantiert positiv oder sogar positiv semidefinit ist".

Dies erscheint mir falsch, da (abgesehen von numerischen Problemen) der Hessische Wert aufgrund der Definition des M-Schätzers als Wert des Parameters, der die Zielfunktion für die gegebene Stichprobe minimiert, und der bekannten Tatsache, dass der Hessische Wert positiv semidefinit sein muss bei einem (lokalen) Minimum ist der Hessische positiv semidefinit.

Ist mein Argument richtig?

[BEARBEITEN: Die Anweisung wurde in der 2. Ausgabe entfernt. aus dem Buch. Siehe Kommentar.]

HINTERGRUND Angenommen, θ N ein Schätzer durch Minimieren erhaltene 1θ^N

1Ni=1Nq(wi,θ),
wobeiwidieite Beobachtung bezeichnet.

Bezeichnen wir den Hessischen von q mit H ,

H(q,θ)ij=2qθiθj

Die asymptotische Kovarianz von θ beinhaltet E [ H ( q , & thgr; 0 ) ] wobei θ 0 der wahre Parameterwert. Eine Möglichkeit, dies abzuschätzen, ist die Verwendung des empirischen Hessischenθ^nE[H(q,θ0)]θ0

H^=1Nich=1NH(wich,θ^n)

Es ist die Bestimmtheit der H , die in Frage steht.H^


1
@Jyotirmoy, was ist, wenn das Minimum an der Grenze Ihres Parameterraums auftritt?
Kardinal

@Kardinal. Sie haben recht, mein Argument wird in diesem Fall nicht funktionieren. Aber Wooldridge erwägt den Fall, in dem das Minimum im Inneren liegt. Ist er in diesem Fall nicht falsch?
Jyotirmoy Bhattacharya

@Jyotirmoy, es kann sicher nur positiv semidefinit sein. Denken Sie an lineare Funktionen oder an eine Funktion, bei der die Menge der Mindestpunkte ein konvexes Polytop bildet. Für ein einfacheres Beispiel betrachte man ein beliebiges Polynom bei x = 0 . f(x)=x2nx=0
Kardinal

1
@Kardinal. Wahr. Was mich beunruhigt, ist der Ausdruck "sogar positiv semidefinit" in der zitierten Aussage.
Jyotirmoy Bhattacharya

@Jyotirmoy, gibt es eine bestimmte Form des M-Schätzers in dem Buch, das Sie zur Verfügung stellen könnten? Geben Sie auch den betrachteten Parameterraum an. Vielleicht können wir dann herausfinden, was der Autor vorhatte. Im Allgemeinen denke ich, dass wir bereits festgestellt haben, dass die Behauptung des Autors richtig ist. Wenn Sie die Form von oder den zu berücksichtigenden Parameterraum weiter einschränken, kann sich dies möglicherweise ändern.q
Kardinal

Antworten:


16

Ich denke, du hast recht. Lassen Sie uns Ihre Argumentation auf den Punkt bringen:

  1. minimiert die FunktionQdefiniert alsθ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Sei der Hessian von Q , woraus H ( θHQH(θ)=2Qθiθj definitions und dies wiederum durch die Linearität der Differenzierung, der gleich .1Ni=1NH(wi,θn)

  3. Unter der Annahme , θ N liegt im Innern der Domäne von Q , dann H ( θ N ) muß positiv semi-definit.θ^NQH(θ^N)

Dies ist lediglich eine Aussage über die Funktion : Wie sie definiert ist, ist lediglich eine Ablenkung, mit der Ausnahme, dass die angenommene Differenzierbarkeit zweiter Ordnung von q in Bezug auf sein zweites Argument ( θ ) die Differenzierbarkeit zweiter Ordnung von Q sicherstellt .QqθQ


Das Finden von M-Schätzern kann schwierig sein. Betrachten Sie diese von @mpiktas bereitgestellten Daten:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Die R-Prozedur zum Finden des M-Schätzers mit thgr ; ) = ( y - c 1 x c 2 ) 4 ergab die Lösung ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 ) . Der Wert der Zielfunktion (der Durchschnitt der q ) zu diesem Zeitpunkt beträgt 62,3542. Hier ist eine Darstellung der Passform:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Fit 1

Hier ist eine Darstellung der (logarithmischen) Zielfunktion in einer Nachbarschaft dieser Anpassung:

Ziel 1

Hier ist etwas faul: Die Parameter der Anpassung sind extrem weit von den Parametern entfernt, mit denen die Daten simuliert wurden (nahe ), und wir scheinen kein Minimum zu haben: Wir befinden uns in einem extrem flachen Tal, das abfällt zu größeren Werten beider Parameter:(0.3,0.2)

Ziel 1, 3D-Ansicht

Die negative Determinante des Hessischen an dieser Stelle bestätigt, dass dies kein lokales Minimum ist! Wenn Sie sich jedoch die Beschriftungen der Z-Achse ansehen, können Sie feststellen, dass diese Funktion innerhalb des gesamten Bereichs flach bis fünfstellig ist, da sie einer Konstanten von 4,1329 (dem Logarithmus von 62,354) entspricht. Dies führte wahrscheinlich dazu, dass der R-Funktionsminimierer (mit seinen Standardtoleranzen) zu dem Schluss kam, dass er nahe am Minimum lag.

In der Tat ist die Lösung von diesem Punkt weit entfernt. Um dies sicher zu finden, habe ich in Mathematica die rechenintensive, aber hochwirksame Methode " Hauptachse " mit 50-stelliger Genauigkeit (Basis 10) verwendet, um mögliche numerische Probleme zu vermeiden. Sie findet ein Minimum in der Nähe von ( c 1 , c 2 ) = ( 0,02506 , 7,55973 ), wobei die Zielfunktion den Wert 58,292655 hat: ungefähr 6% kleiner als das von R gefundene "Minimum". Dieses Minimum tritt in einem extrem flach aussehenden Abschnitt auf , aber ich kann es (gerade noch) wie ein echtes Minimum mit elliptischen Konturen aussehen lassen, indem ich das c 2 übertreibe(c1,c2)=(0.02506,7.55973)c2 Richtung in der Handlung:

Ziel 2

Die Konturen reichen von 58,29266 in der Mitte bis zu 58,29284 in den Ecken (!). Hier ist die 3D-Ansicht (wieder das Log-Objektiv):

Ziel 2, 3D-Ansicht

Hier ist der Hessische positiv bestimmt: seine Eigenwerte sind 55062.02 und 0.430978. Somit dieser Punkt ein lokales Minimum (und wahrscheinlich ein globales Minimum). Hier ist die Passform, der es entspricht:

Fit 2

Ich denke es ist besser als das andere. Die Parameterwerte sind sicherlich realistischer und es ist klar, dass wir mit dieser Kurvenfamilie nicht viel besser umgehen können.

Aus diesem Beispiel können wir nützliche Lehren ziehen:

  1. Die numerische Optimierung kann schwierig sein, insbesondere bei nichtlinearen Anpassungs- und nicht quadratischen Verlustfunktionen. Deshalb:
  2. Überprüfen Sie die Ergebnisse auf so viele Arten wie möglich:
  3. Zeichnen Sie die Zielfunktion, wann immer Sie können.
  4. Seien Sie äußerst misstrauisch, wenn numerische Ergebnisse mathematische Theoreme zu verletzen scheinen.
  5. Wenn statistische Ergebnisse überraschend sind, z. B. die vom R-Code zurückgegebenen überraschenden Parameterwerte, sind Sie besonders misstrauisch.

+1, nette Analyse. Ich denke, deshalb hat Wooldridge die Bemerkung aufgenommen. Ich denke immer noch, es ist möglich, an ein Beispiel zu denken, bei dem der Hessische unbestimmt sein wird. Zum Beispiel den Parameterraum künstlich einschränken. In diesem Beispiel ist der Parameterraum die ganze Ebene, deshalb ergibt das lokale Minimum einen semi-positiven Hessischen Wert. Ich denke, es ist an der Zeit, Wooldridge eine nette E-Mail zu schreiben, um die Frage zu beantworten :)
mpiktas

@mpiktas Ja, ich bin sicher, es gibt Probleme, bei denen ein globales Innenminimum ein unbestimmtes hessisches hat, bei denen jedoch alle Parameter identifizierbar sind. Aber es ist einfach nicht möglich, dass der Hessische bei einem hinreichend glatten inneren globalen Minimum unbestimmt ist. So etwas wurde immer wieder bewiesen, beispielsweise in Milnors Topologie unter einem differenzierbaren Gesichtspunkt . Ich vermute, Wooldridge wurde möglicherweise durch fehlerhafte numerische "Lösungen" in die Irre geführt. (Die Tippfehler auf der zitierten Seite deuten übrigens darauf hin, dass sie hastig geschrieben wurden.)
whuber

Auch an der Grenze wird Hessisch positiv sein? Ich schaue mir das Buch an und stelle fest, dass mir wirklich umfangreiche Kenntnisse auf diesem Gebiet fehlen. Klassische Theoreme sind sehr einfach, so dass ich davon ausging, dass es nicht etwas anderes geben sollte, das sehr kompliziert ist. Das ist vielleicht einer der Gründe, warum ich so große Schwierigkeiten hatte, die Frage zu beantworten.
mpiktas

@mpiktas An der Grenze muss der Hessische nicht einmal definiert sein . Die Idee ist folgende: Wenn die Jacobian / Hessian / Second Derivative-Matrix an einem kritischen Punkt definiert ist, verhält sich die Funktion in einer Nachbarschaft wie die quadratische Form, die durch diese Matrix bestimmt wird. Wenn die Matrix positive und negative Eigenwerte hat, muss die Funktion in einige Richtungen zunehmen und in andere abnehmen: Sie kann kein lokales Extremum sein. Dies ist, was @Jyotirmoy über das Zitat besorgt, das dieser grundlegenden Eigenschaft zu widersprechen scheint.
whuber

Danke euch beiden und @mpiktas für die sehr nette Analyse. Ich stimme Ihnen eher zu, dass Wooldridge numerische Schwierigkeiten mit den theoretischen Eigenschaften des Schätzers verwechselt. Mal sehen, ob es noch andere Antworten gibt.
Jyotirmoy Bhattacharya

7

θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^ ) positiv semi-definit.

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Weiter gibt Wooldridge in seinem Buch Beispiele für Schätzungen von Hessisch, die garantiert zahlenmäßig eindeutig positiv sind. In der Praxis sollte eine nicht positive Bestimmtheit von Hessisch anzeigen, dass sich die Lösung entweder am Grenzpunkt befindet oder der Algorithmus die Lösung nicht gefunden hat. Dies ist in der Regel ein weiterer Hinweis darauf, dass das angepasste Modell für bestimmte Daten möglicherweise nicht geeignet ist.

Hier ist das numerische Beispiel. Ich generiere ein nichtlineares Problem der kleinsten Quadrate:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

Ich habe das Zielfunktionsquadrat der üblichen nichtlinearen Zielfunktion der kleinsten Quadrate gewählt:

q(w,θ)=(yc1xic2)4

Hier ist der Code in R zur Optimierung der Funktion, der Gradient und der Hessische.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Testen Sie zunächst, ob Gradient und Hessisch wie angegeben funktionieren.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Der Gradient ist Null, aber der Hessische ist nicht positiv.

Hinweis: Dies ist mein dritter Versuch, eine Antwort zu geben. Ich hoffe, ich habe es endlich geschafft, präzise mathematische Aussagen zu machen, die mir in den vorherigen Versionen entgangen sind.


wyxw=(x,y)ym(x,θ)m(x,θ)

@mpiktas, ich bin mir nicht ganz sicher, wie ich deinen ersten Satz aufgrund des Wortlauts interpretieren soll. Ich kann zwei Wege sehen, einen, den ich als richtig bezeichnen würde und den anderen, den ich nicht würde. Genau genommen stimme ich dem zweiten Satz in Ihrem ersten Absatz auch nicht zu. Wie ich oben gezeigt habe, ist es möglich, im Inneren des Parameterraums ein lokales Minimum zu haben, ohne dass das Hessische definitiv positiv ist.
Kardinal

wyxw=(x,y)

@ Kardinal, ich habe meine Formulierung korrigiert. Jetzt sollte es ok sein. Vielen Dank für den Hinweis auf das Problem.
mpiktas

@mptikas. Weder Wooldridge noch ich behaupten, dass der Hessische überall positiv bestimmt sein muss. Meine Behauptung ist, dass für ein inneres Maximum der empirische Hessische Wert als notwendige Bedingung für die Erreichung seines Maximums einer glatten Funktion positiv semidefinit sein muss. Wooldridge scheint etwas anderes zu sagen.
Jyotirmoy Bhattacharya

3

Der Hessische ist an einer Sattelstelle unbestimmt. Es ist möglich, dass dies der einzige stationäre Punkt im Inneren des Parameterraums ist.

Update: Lassen Sie mich näher darauf eingehen. Nehmen wir zunächst an, dass der empirische Hessische überall existiert.

Wenn θ^n ist ein lokales (oder sogar globales) Minimum von ichq(wich,) und im Inneren des Parameterraumes (angenommen eine offene Menge) dann zwangsläufig das Hessische (1/N)ichH(wich,θ^n)ist positiv semidefinit. Wenn nicht, dannθ^nist kein lokales Minimum. Dies folgt aus Optimalitätsbedingungen zweiter Ordnung - lokalichq(wich,) darf in keiner Richtung abnehmen von θ^n.

Eine Quelle der Verwirrung könnte die "funktionierende" Definition eines M-Schätzers sein. Obwohl im Prinzip ein M-Schätzer definiert werden sollte alsargMindestθichq(wich,θ)kann es auch als Lösung der Gleichung definiert werden

0=ichq˙(wich,θ),
wo q˙ ist der Gradient von q(w,θ) in Gedenken an θ. Dies wird manchmal alsΨ-Art. Im letzteren Fall muss eine Lösung dieser Gleichung kein lokales Minimum sein. Es kann ein Sattelpunkt sein und in diesem Fall wäre der Hessische unbestimmt.

In der Praxis würde sogar ein fast singulärer oder schlecht konditionierter positiver Hessischer Wert darauf hindeuten, dass der Schätzer arm ist und Sie sich mehr Sorgen machen müssen, als seine Varianz zu schätzen.


Könnten Sie Ihre Antwort so anpassen, dass sie der Notation der Frage entspricht? Um was geht esx2-y2Bezugnahme? Wo wird dies in die in der Frage angegebenen Gleichungen eingefügt?
Wahrscheinlichkeitslogik

+1 Gute Punkte im Update, insbesondere im letzten Absatz. Wenn der Hessische verfügbar ist - wie in dieser Diskussion implizit vorausgesetzt wird -, würde man seine positive Bestimmtheit automatisch als eines der Kriterien zum Testen eines kritischen Punkts verwenden, und daher könnte dieses Problem einfach nicht auftreten. Dies lässt mich glauben, dass das Wooldridge-Zitat das hessische zumindest global und nicht nur an einem kritischen Punkt betreffen muss.
Whuber

1

Es wurde viel um den heißen Brei in diesem Thread geredet, ob der hessische Wert auf ein lokales Minimum positiv (halb) definit sein muss. Also werde ich eine klare Aussage dazu machen.

Unter der Annahme, dass die objektive Funktion und alle Nebenbedingungsfunktionen zweimal kontinuierlich differenzierbar sind, muss das in den Nullraum des Jacobi projizierte Hessische des Lagrangischen mindestens positiv semidefinit sein. Dh wennZ ist also eine Basis für den Nullraum des Jacobi von aktiven Nebenbedingungen ZT(Hessisch von Lagrangian)Zmuss positiv semidefinit sein. Dies muss für ein striktes lokales Minimum definitiv positiv sein.

Das Hessische der Zielfunktion in einem eingeschränkten Problem mit aktiven Einschränkungen muss also nicht positiv semidefinit sein, wenn es aktive Einschränkungen gibt.

Anmerkungen:

1) Aktive Bedingungen bestehen aus allen Gleichheitsbedingungen plus Ungleichheitsbedingungen, die mit Gleichheit zufrieden sind.

2) Siehe die Definition des Lagrange unter https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Wenn alle Bedingungen linear sind, dann ist das Hessische des Lagrange = Hessisches der Zielfunktion, da die 2. Ableitungen der linearen Funktionen Null sind. Aber Sie müssen immer noch den Projektionsjazz spielen, wenn eine dieser Einschränkungen aktiv ist. Beachten Sie, dass Unter- oder Obergrenzenbedingungen besondere Fälle von linearen Ungleichungsbedingungen sind. Wenn die einzigen Einschränkungen, die aktiv sind, gebundene Einschränkungen sind, läuft die Projektion des Hessischen in den Nullraum des Jacobischen von aktiven Einschränkungen darauf hinaus, die Zeilen und Spalten des Hessischen zu eliminieren, die diesen Komponenten an ihren Grenzen entsprechen.

4) Da Lagrange-Multiplikatoren inaktiver Nebenbedingungen Null sind, ist, wenn keine aktiven Nebenbedingungen vorhanden sind, das Hessische des Lagrange = das Hessische der Zielfunktion, und die Identitätsmatrix ist eine Basis für den Nullraum des Jacobischen der aktiven Nebenbedingungen, die Dies führt zu einer Vereinfachung des Kriteriums unter der bekannten Bedingung, dass das Hessische der Zielfunktion auf lokaler Ebene semidefinit positiv ist (auf lokaler Ebene positiv definit, wenn es sich um ein striktes lokales Minimum handelt).


0

Die obigen positiven Antworten sind richtig, lassen jedoch die entscheidende Annahme der Identifizierung außer Acht - wenn Ihr Modell nicht identifiziert wird (oder wenn es nur als identifiziert eingestuft wird), könnten Sie tatsächlich, wie Wooldridge richtig angegeben hat, mit einem empirischen Hessischen Nicht-PSD-Modell konfrontiert sein. Führen Sie einfach ein nicht-spielzeugpsychometrisches / ökonometrisches Modell aus und überzeugen Sie sich selbst.


Könnten Sie, da dies mathematisch nicht möglich erscheint, anhand eines einfachen, klaren Beispiels veranschaulichen, wie der Hessische Wert einer kontinuierlich zweifach differenzierbaren Zielfunktion möglicherweise nicht als globales Minimum für PSD gelten kann?
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.