Was ist Kalibrierung?


8

Was bedeutet es, Vermessungsgewichte zu kalibrieren?

Was sind andere Definitionen der Kalibrierung in der Statistik? Ich habe gehört, dass es in verschiedenen Zusammenhängen verwendet wird, insbesondere bei der Risikoprognose (in Bezug darauf, ob die Gesamtzahl der vorhergesagten Ereignisse in einer Kohorte statistisch mit der beobachteten Anzahl von Ereignissen übereinstimmt).

Gibt es einen großen, einheitlichen Begriff der Kalibrierung in der Statistik?

Unser Wiki zur Kalibrierung kratzt an der Oberfläche oder wirft vielleicht die Frage auf.


1
Kalibrierung bedeutet, dass Sie die Parameter (Gewichte oder Parameter in einem theoretischen Modell für eine Volkswirtschaft) so finden, dass die Ergebnisse (gewichtete Mittelwerte oder Ergebnisse dieser theoretischen Wirtschaft) einigen als wahr bekannten Werten entsprechen (z. B. aus Volkszählungsdaten). Ist das die Antwort, nach der Sie suchen, oder gibt es noch etwas anderes?
Maarten Buis

@MaartenBuis sind Umfragegewichte, die aus einem parametrischen Modell für die Wahrscheinlichkeit der Aufnahme in die Stichprobe erhalten wurden? Können solche Gewichte dann als aus einem Vorhersagemodell stammend angesehen werden, das validiert werden muss?
AdamO

Die folgenden Informationen sind möglicherweise sehr hilfreich: jkim.public.iastate.edu/2009_Calibration_ISR.pdf
StatsStudent

Antworten:


11

Der Begriff "Kalibrierung" für Vermessungsgewichte scheint von Deville und Sarndal (1992) geprägt worden zu sein . Sie legten einen Regenschirm auf eine Reihe verschiedener Verfahren, bei denen die bekannten Bevölkerungszahlen verwendet wurden:

iUYi=Ti

wo Yi ist ein Vektor von Merkmalen, die für jede Einheit in der Bevölkerung bekannt sind U. Für die allgemeine menschliche Bevölkerung wären dies Volkszählungsdaten zu demografischen Merkmalen wie Alter, Geschlecht, Rasse / ethnischer Zugehörigkeit, Bildung, Geographie (Regionen, Bundesstaaten, Provinzen) und möglicherweise Einkommen. Für Niederlassungspopulationen haben diese Variablen typischerweise mit der Größe und dem Einkommen der Niederlassung zu tun. Für Listenbeispiele - was auch immer Sie Ihrem Beispiel beigefügt haben.

Deville und Sarndal (1992) diskutierten, wie man von Entwurfsgewichten (inverse Auswahlwahrscheinlichkeiten) ausgeht. di,iS wo S ist die Stichprobe aus Uzu kalibrierten Gewichten wi so dass

iSwiyi=Ti

Das heißt, die Stichprobe stimmt mit der Grundgesamtheit dieser Variablen überein. Sie haben dies getan, indem sie eine Distanzfunktion optimiert haben

F(wi,di)0min,F(ri,ri)=0, subject to iSwiyi=Ti

In der Regel, wie dies in der Statistik häufig der Fall ist, verbessert das Einbringen zusätzlicher Informationen die Varianzen asymptotisch, kann jedoch zu Problemen führen und seltsame kleine Stichprobenverzerrungen verursachen. Deville und Sarndal (1992) quantifizierten diese asymptotischen Effizienzgewinne, was ihr zentraler Beitrag zur Literatur war.

In Bezug auf die Verwendung von Hilfsdaten ist die Umfragestatistik ein ziemlich einzigartiger Zweig. Bayesianische Leute verwenden Hilfsdaten in ihren Prioren. Die iid-Frequentisten / Likelihoodisten haben normalerweise keine große Möglichkeit, Hilfsinformationen aufzunehmen, wie es scheint, da alle Informationen in der Likelihood enthalten sein müssen. Es gibt jedoch einen Zweig der empirischen Wahrscheinlichkeitsschätzung, bei dem Hilfsinformationen verwendet werden, um Schätzgleichungen zu erzeugen und / oder zu aggregieren; Tatsächlich ist die empirische Wahrscheinlichkeit objektiver Funktionen einer der objektiven Funktionsfälle, die von Deville und Sarndal (1992) betrachtet werden. (Ökonomen sollten ganz richtig schnüffeln und darauf hinweisen, dass sie seit Hansen (1982) seit mehr als 30 Jahren wissen, wie statistische Modelle mithilfe einer verallgemeinerten Methode von Momenten kalibriert werden können. ). Ein quadratischer Verlust ist ein weiterer natürlich interessanter Fall in Deville und Sarndal (1992); Während es am einfachsten zu berechnen ist, kann es zu negativen Gewichten führen, die normalerweise als seltsam angesehen werden.)

Eine andere Verwendung des Begriffs " Kalibrierung " in Statistiken, von denen ich gehört habe, ist die umgekehrte Regression, bei der Sie ungenaue Messungen der interessierenden Variablen haben und den Wert des Prädiktors wiederherstellen möchten (das laufende Beispiel, das mir von meinem gegeben wurde Der Marathonläufer eines Statistikprofessors maß die Distanz der Strecke, indem er sie radelte und die Umdrehungen der Fahrradräder zählte, im Vergleich zu genaueren GPS-Messungen - das war in den späten 1990er Jahren vor Smartphones und tragbaren GPS-Geräten.) Sie kalibrieren Ihr Fahrrad auf einem etablierten 1 km langen Kurs und versuchen Sie dann, herumzufahren, um 42 so viel zu bekommen.

Es kann noch andere Verwendungen geben. Ich bin mir nicht sicher, ob es besonders klug ist, sie alle in einem Eintrag abzulegen. Sie haben die Faktoranalyse als einen potenziellen Benutzer dieses Begriffs angegeben, aber ich weiß nicht genau, wie sie dort verwendet wird.


3

Angenommen, Sie führen eine Umfrage durch und erhalten 1.000 Antworten. Vielleicht haben Sie Ihre Umfrage per Handy durchgeführt und ältere Menschen haben keine Handys mit der gleichen Rate wie jüngere Menschen. 5% Ihrer Umfrageteilnehmer (N = 50) waren Senioren, aber laut dem Volkszählungsbüro der Vereinigten Staaten sind 15% der Amerikaner tatsächlich Senioren. Nehmen wir an, das Alter der Befragten spielt für Ihre Umfrageanalyse eine Rolle, für das, was Sie letztendlich veröffentlichen. Damit sich Ihre 1.000 Antworten richtig auf eine realistischere Bevölkerung verallgemeinern lassen, müssen Sie Ihren Senioren ein 3-faches Gewicht geben (das gewichtete N muss 150 sein) und die Gewichte aller anderen ein wenig verkleinern (das nicht ältere N = 950 sollte sein) ein gewichtetes N von 850). Kalibrierung, Harken und Nachschichtung sind Techniken, mit denen Sie Ihren Umfragedatensatz einer offiziellen Gesamtzahl näher bringen können.


2

Es gibt andere Verwendungen des Begriffs "Kalibrierung". Zum Beispiel diskutiert Frank Harrell in diesem CV-Thread dies im Zusammenhang mit der Bestimmung der Modellanpassung:

Der Schlüssel, der zuerst überprüft werden muss, ist die Kalibrierung des Modells, entweder mithilfe des Bootstraps zur Korrektur von Überanpassungen oder mithilfe einer großen unabhängigen Stichprobe, die nicht für die Modellentwicklung oder -anpassung verwendet wird.

Verstehen, wie gut eine Vorhersage in der logistischen Regression ist

Typischerweise bezieht sich die Kalibrierung eines Modells bei der Vorhersagemodellierung auf die Bewertung der Anpassungsgüte (oder Modellgenauigkeit) der Trainingsdaten , während der Vorhersagefehler der Testdaten bewertet wird .


0

Kalibrierung bedeutet, dass Sie die gewünschten Parameter mit bekannten guten Werten einstellen, die zu erwarteten Ergebnissen führen würden. Kalibrierte Werte sind gut etablierte Werte. Das Vertrauen seiner Werte, das in der Kalibrierungskurve σ dargestellt ist, zeigt das Vertrauen in die geschätzten Werte als Abweichung vom Mittelwert μ. Hier liegen 68% der Werte innerhalb einer Standardabweichung σ vom Mittelwert entfernt; während 95% der Werte innerhalb von zwei Sigmen liegen. Gaußsche Verteilung


0

Ich möchte Ihnen ein intuitives Beispiel geben, um die folgende Aussage zu erklären:

Wir wünschen uns, dass die geschätzten Klassenwahrscheinlichkeiten die wahre zugrunde liegende Wahrscheinlichkeit der Stichprobe widerspiegeln. Das heißt, die vorhergesagte Klassenwahrscheinlichkeit (oder der wahrscheinlichkeitsähnliche Wert) muss gut kalibriert sein. Um gut kalibriert zu sein, müssen die Wahrscheinlichkeiten die wahre Wahrscheinlichkeit des interessierenden Ereignisses effektiv widerspiegeln.

Quelle: Angewandte prädiktive Modellierung auf Seite 249

Für einen bestimmten Fall ist es schwierig, die Wahrscheinlichkeit zu veranschaulichen, aber wenn es um eine große Anzahl von Fällen geht, tritt der Effekt der Kalibrierung auf.

Zum Beispiel verwendet die Fluggesellschaft einige Algorithmen, zum Beispiel die logistische Regression ( warum? ), Um vorherzusagen, ob der Passagier an diesem Tag erscheinen wird. Sie kümmern sich eigentlich nicht darum, ob die bestimmte Person auftaucht oder nicht, und sie kümmern sich darum, wie viele Shows insgesamt stattfinden würden. Was sie tun, kann nur das Hinzufügen aller Wahrscheinlichkeiten der Vorhersagen sein. Wenn die Summe unter der Anzahl der Sitzplätze liegt, können sie Flüge überbuchen.

Einige Klassifikatoren sind nicht gut kalibriert, beispielsweise SVM. Das ist die Punktzahl, die wir erhalten, wenn die Vorhersage nicht die wahre Wahrscheinlichkeit ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.