Kernel-Bandbreite: Regeln von Scott vs. Silverman

Kann jemand im Klartext erklären, worin der Unterschied zwischen den Daumenregeln von Scott und Silverman für die Bandbreitenauswahl besteht? Insbesondere wenn ein besser als die anderen? Hängt es mit der zugrunde liegenden Distribution zusammen? Anzahl von Beispielen?

PS Ich beziehe mich auf den Code in SciPy .

kernel-smoothing

— xrfang
quelle

Ich möchte auch Python nicht kennen. Ich möchte nur helfen, zu verstehen, wann und warum welche Regel anzuwenden ist.

— Xrfang

Die Kommentare im Code scheinen die beiden im Wesentlichen identisch zu definieren (abgesehen von einem relativ kleinen Unterschied in der Konstante).

Beide sind von der Form $cAn^{-1/5}$ , die beide mit dem, was aussieht wie die gleichen $A$ (Schätzwert der Skala), und $c$ ist sehr nahe an 1 ( in der Nähe relativ zu der typischen Unsicherheit bei der Schätzung der optimalen Bandbreite) .

[Die binwdith schätzt , dass mehr scheint in der Regel mit Scott verbunden zu sein ist von seinem 1979 Papier [1] ( $3.49 s n^{-1/3}$ ) - siehe zB Wikipedia - scroll down ein wenig - oder R nclass.scott.]

Die 1,059 in dem, was der Code die "Scott-Schätzung" nennt, ist im (vorherigen) Buch von Silverman (siehe Seite 45 der Silverman-Referenz unter Ihrem Link - Scotts Ableitung davon befindet sich auf Seite 130-131 des Buches, auf das sie sich beziehen). Es stammt aus einer Schätzung der Normaltheorie.

$1.059\sigma$

$A$ $\sigma$

Aus ähnlichen Gründen, die ich zuvor vorgeschlagen habe, schlägt Silverman vor, 1.059 zu reduzieren (tatsächlich verwendet er 1.06 durchgehend, nicht 1.059 - wie Scott in seinem Buch). Er wählt einen reduzierten Wert, der bei IMSE im Normalfall nicht mehr als 10% Wirkungsgrad einbüßt. Daher kommt die 0,9.

Beide Binbreiten basieren also auf der IMSE-optimalen Binbreite im Normalfall, eine direkt am Optimum, die andere (etwa 15% kleiner, um im Normalfall 90% der Effizienz des Optimums zu erreichen). [Ich würde beide als "Silverman" -Schätzungen bezeichnen. Ich habe keine Ahnung, warum sie die 1.059 für Scott nennen.]

Meiner Meinung nach sind beide viel zu groß. Ich verwende keine Histogramme, um IMSE-optimale Schätzungen der Dichte zu erhalten. Wenn das (Abschätzen der Dichte, die im Sinne von IMSE optimal ist) das war, was ich tun wollte, würde ich zu diesem Zweck keine Histogramme verwenden wollen.

Die Histogramme sollten auf der lauteren Seite fehlerhaft sein (lassen Sie das Auge die notwendige Glättung vornehmen). Ich verdopple fast immer (oder mehr) die Standardanzahl von Behältern, die diese Art von Regeln gibt. Also würde ich nicht 1.06 oder 0.9 verwenden, sondern eher etwas um 0.5, vielleicht weniger bei wirklich großen Stichproben.

Es gibt wirklich sehr wenig Auswahlmöglichkeiten, da beide viel zu wenig Behälter zur Verfügung stellen, um die Daten zu ermitteln (zumindest bei kleinen Stichprobengrößen, siehe hier) .

[1]: Scott, DW (1979), "On optimal and data based histograms", Biometrika , 66 , 605-610.

— Glen_b - Setzen Sie Monica wieder ein
quelle

Laut SciPy-Dokument hier lautet die Scott-Regel: n ** (- 1./(d+4)). Beim Betrachten des Codes habe ich festgestellt, dass ich die Regel genauso missverstanden habe wie "scotts_factor". Sie haben Recht, dass die Bandbreite viel zu groß ist. Ich werde eine neue Frage zur numerischen Bandbreitenauswahl öffnen. Vielen Dank.

— Xrfang

d = 1

$d=1$

n^{- 1 / 5}

$n^{-1/5}$

A

$A$

c

$c$

@ Glen_b-ReinstateMonica Könnten Sie sich die Frage ansehen, die ich hier gestellt habe ? Ich zeige die Probleme, die Silvermans Regel mit sich bringen kann, wenn eine große Stichprobe verwendet wird. Könnten Sie antworten, was im Detail vor sich geht?

— user269666