Ich versuche zu verstehen, wie Einflussfunktionen funktionieren. Könnte jemand im Kontext einer einfachen OLS-Regression erklären
wo ich die Einflussfunktion für will .
Ich versuche zu verstehen, wie Einflussfunktionen funktionieren. Könnte jemand im Kontext einer einfachen OLS-Regression erklären
wo ich die Einflussfunktion für will .
Antworten:
Einflussfunktionen sind im Grunde genommen ein Analysewerkzeug, mit dem der Effekt (oder "Einfluss") des Entfernens einer Beobachtung auf den Wert einer Statistik bewertet werden kann, ohne dass diese Statistik neu berechnet werden muss . Sie können auch verwendet werden, um asymptotische Varianzschätzungen zu erstellen. Wenn der Einfluss gleich ist, ist die asymptotische Varianz I 2 .
Ich verstehe Einflussfunktionen wie folgt. Sie haben eine Art theoretische CDF, bezeichnet mit . Für einfaches OLS haben Sie
WobeiΦ(z)die normale Standard-CDF ist undσ2die Fehlervarianz ist. Jetzt können Sie zeigen, dass jede Statistik eine Funktion dieser CDF ist, daher die NotationS(F)(dh eine Funktion vonF). Nehmen wir nun an, wir ändern die FunktionFum ein "kleines Bit" inF(i)(z)=(1+ζ)F(z)-ζδ(i)(
Note that so we get:
The partial derivative here is called the influence function. So this represents an approximate "first order" correction to be made to a statistic due to deleting the "ith" observation. Note that in regression the remainder does not go to zero asymtotically, so that this is an approximation to the changes you may actually get. Now write as:
Somit ist Beta eine Funktion von zwei Statistiken: der Varianz von X und der Kovarianz zwischen X und Y. Diese beiden Statistiken haben Darstellungen in Bezug auf die CDF als:
To remove the ith observation we replace in both integrals to give:
ignoring terms of and simplifying we get:
So we can now express as a function of . This is:
We can now use the Taylor series:
Simplifying this gives:
And plugging in the values of the statistics , , , and we get:
And you can see how the effect of removing a single observation can be approximated without having to re-fit the model. You can also see how an x equal to the average has no influence on the slope of the line. Think about this and you will see how it makes sense. You can also write this more succinctly in terms of the standardised values (similarly for y):
Here is a super general way to talk about influence functions of a regression. First I'm going to tackle one way of presenting influence functions:
Suppose is a distribution on . The contaminated distribution function, can be defined as:
From this we can define the influence function fairly easily:
The influence function of at , is defined as:
From here it's possible to see that an influence function is the Gateaux derivative of at in the direction of . This makes the interpretation of influence functions (for me) a little bit clearer: An influence function tells you the effect that a particular observation has on the estimator.
The OLS estimate is a solution to the problem:
Imagine a contaminated distribution which puts a little more weight on observation :
Taking first order conditions:
Since the influence function is just a Gateaux derivative we can now say:
At , , so:
The finite sample counterpart of this influence function is:
In general I find this framework (working with influence functions as Gateaux derivatives) easier to deal with.