Warum Extremwerttheorie verwenden?


18

Ich komme aus dem Bauingenieurwesen, in dem wir die Extremwerttheorie wie die GEV-Verteilung verwenden, um den Wert bestimmter Ereignisse vorherzusagen, z. B. Die größte Windgeschwindigkeit , dh den Wert, auf den 98,5% der Windgeschwindigkeit abfallen würden.

Meine Frage ist, warum so eine Extremwertverteilung verwenden ? Wäre es nicht einfacher, wenn wir nur die Gesamtverteilung verwenden und den Wert für die Wahrscheinlichkeit von 98,5% erhalten würden ?

Antworten:


24

Haftungsausschluss: An folgenden Stellen wird davon ausgegangen, dass Ihre Daten normal verteilt sind. Wenn Sie tatsächlich etwas konstruieren, sprechen Sie mit einem Experten für starke Statistiken und lassen Sie diese Person auf der Leitung unterschreiben und sagen, wie hoch das Niveau sein wird. Sprich mit fünf oder 25 von ihnen. Diese Antwort ist für einen Studenten des Bauingenieurwesens gedacht, der das "Warum" fragt, nicht für einen Ingenieur, der das "Wie" fragt.

Ich denke, die Frage hinter der Frage ist "Was ist die Extremwertverteilung?". Ja, es sind einige Algebra - Symbole. Na und? Recht?

Denken wir an 1000-jährige Überschwemmungen. Sie sind groß.

Wenn sie passieren, werden sie viele Menschen töten. Viele Brücken stürzen ab.
Weißt du, welche Brücke nicht runtergeht? Ich mache. Das tust du noch nicht.

Frage: Welche Brücke stürzt in einem 1000-jährigen Hochwasser nicht ab?
Antwort: Die Brücke soll es aushalten.

Die Daten, die Sie brauchen, um es auf Ihre Weise zu tun:
Nehmen wir an, Sie haben 200 Jahre tägliche Wasserdaten. Ist die 1000-jährige Flut dort? Nicht aus der Ferne. Sie haben eine Stichprobe von einem Ende der Verteilung. Du hast nicht die Bevölkerung. Wenn Sie die gesamte Geschichte der Überschwemmungen kennen würden, hätten Sie die gesamte Datenmenge. Denken wir mal darüber nach. Wie viele Jahre Daten benötigen Sie, wie viele Stichproben, um mindestens einen Wert zu erhalten, dessen Wahrscheinlichkeit 1 in 1000 ist? In einer perfekten Welt würden Sie mindestens 1000 Proben benötigen. Die reale Welt ist chaotisch, also brauchst du mehr. Sie erhalten 50/50 Gewinnchancen bei ungefähr 4000 Proben. Bei ungefähr 20.000 Proben wird Ihnen garantiert, dass Sie mehr als 1 haben. Probe bedeutet nicht "Wasser eine Sekunde gegen die nächste", sondern ein Maß für jede einzelne Variationsquelle - wie die Variation von Jahr zu Jahr. Eine Maßnahme über ein Jahr, zusammen mit einer weiteren Maßnahme über ein weiteres Jahr zwei Stichproben. Wenn Sie nicht über 4.000 Jahre gute Daten verfügen, haben Sie wahrscheinlich kein Beispiel für eine 1000-Jahres-Flut in den Daten. Das Gute ist, dass Sie nicht so viele Daten benötigen, um ein gutes Ergebnis zu erzielen.

So erzielen Sie bessere Ergebnisse mit weniger Daten:
Wenn Sie die jährlichen Maxima betrachten, können Sie die "Extremwertverteilung" an die 200 Werte der Jahr-Max-Niveaus anpassen und Sie erhalten die Verteilung, die das 1000-Jahres-Hochwasser enthält -Niveau. Es wird die Algebra sein, nicht die tatsächliche "wie groß ist es". Sie können die Gleichung verwenden, um zu bestimmen, wie groß die 1000-jährige Flut sein wird. Angesichts dieser Wassermenge können Sie dann eine Brücke bauen, um Widerstand zu leisten. Schießen Sie nicht für den exakten Wert, sondern für den größeren Wert. Andernfalls wird die 1000-Jahres-Flut zum Scheitern verurteilt. Wenn Sie mutig sind, können Sie mithilfe des Resamplings herausfinden, wie viel darüber hinaus der exakte Wert von 1000 Jahren liegt, auf den Sie ihn aufbauen müssen, damit er widersteht.

Hier ist, warum EV / GEV die relevanten Analyseformen sind:
Die verallgemeinerte Extremwertverteilung gibt an, wie stark das Maximum variiert. Die Variation des Maximums verhält sich wirklich anders als die Variation des Mittelwerts. Die Normalverteilung beschreibt über den zentralen Grenzwertsatz viele "zentrale Tendenzen".

Verfahren:

  1. mache die folgenden 1000 Male:
    i. Wählen Sie 1000 Zahlen aus der Standardnormalverteilung.
    ii. Berechne das Maximum dieser Gruppe von Samples und speichere es
  2. Zeichnen Sie nun die Verteilung des Ergebnisses

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Dies ist NICHT die "normale Standardverteilung": Bildbeschreibung hier eingeben

Der Peak liegt bei 3,2, aber das Maximum steigt in Richtung 5,0. Es hat schief. Es geht nicht unter 2,5. Wenn Sie tatsächliche Daten (die Standardnormale) hatten und nur den Schwanz auswählen, wählen Sie gleichmäßig zufällig etwas entlang dieser Kurve aus. Wenn Sie Glück haben, sind Sie in Richtung der Mitte und nicht den unteren Schwanz. Engineering ist das Gegenteil von Glück - es geht darum, jedes Mal die gewünschten Ergebnisse zu erzielen. " Zufallszahlen sind viel zu wichtig, um sie dem Zufall zu überlassen " (siehe Fußnote), insbesondere für einen Ingenieur. Die analytische Funktionsfamilie, die am besten zu diesen Daten passt - die Extremwertfamilie der Verteilungen.

Beispielanpassung:
Nehmen wir an, wir haben 200 zufällige Werte des Jahresmaximums aus der Standardnormalverteilung, und wir werden so tun, als wären sie unsere 200-jährige Geschichte der maximalen Wasserstände (was auch immer das bedeutet). Um die Verteilung zu erhalten, würden wir Folgendes tun:

  1. Beispiel für die Variable "store" (für kurzen / einfachen Code)
  2. passen zu einer verallgemeinerten Extremwertverteilung
  3. Bestimmen Sie den Mittelwert der Verteilung
  4. Verwenden Sie Bootstrapping, um die 95% CI-Obergrenze für die Variation des Mittelwerts zu ermitteln, damit wir unser Engineering darauf ausrichten können.

(Code setzt voraus, dass die oben genannten zuerst ausgeführt wurden)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Dies ergibt Ergebnisse:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Diese können in die Generierungsfunktion eingesteckt werden, um 20.000 Samples zu erstellen

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Wenn Sie auf Folgendes aufbauen, erhalten Sie 50/50 Fehlerquoten für jedes Jahr:

Mittelwert (y3)
3,23681

Hier ist der Code, um zu bestimmen, wie hoch das 1000-jährige "Hochwasser" -Niveau ist:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Wenn Sie auf dieses Folgende aufbauen, sollten Sie 50/50 Chancen haben, bei der 1000-jährigen Flut zu versagen.

p1000
4.510931

Um den 95% oberen CI zu bestimmen, habe ich den folgenden Code verwendet:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Das Ergebnis war:

> mytarget
     95% 
4.812148

Dies bedeutet, dass Sie, um der großen Mehrheit der 1000-jährigen Überschwemmungen zu widerstehen, angesichts der Tatsache, dass Ihre Daten makellos normal sind (nicht wahrscheinlich), ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

oder der

> 1/(1-out)
   shape 
1077.829 

... 1078 Jahre Hochwasser.

Fazit:

  • Sie haben eine Stichprobe der Daten, nicht die tatsächliche Gesamtbevölkerung. Das bedeutet, dass Ihre Quantile Schätzungen sind und möglicherweise deaktiviert sind.
  • Verteilungen wie die verallgemeinerte Extremwertverteilung werden erstellt, um anhand der Stichproben die tatsächlichen Schwänze zu bestimmen. Sie können viel weniger schlecht abschätzen als die Stichprobenwerte, auch wenn Sie nicht genügend Stichproben für den klassischen Ansatz haben.
  • Wenn Sie robust sind, ist die Decke hoch, aber das Ergebnis ist - Sie scheitern nicht.

Viel Glück

PS:

  • 1/(1-0,985)67
  • In Anbetracht des vorherigen Punktes sollten die Zivilbevölkerung durchschnittlich alle 67 Jahre umbauen müssen. Angesichts der Betriebsdauer der zivilen Struktur (ich weiß nicht, was das ist) könnte es zu den vollen Kosten für Engineering und Konstruktion alle 67 Jahre günstiger sein, über einen längeren Zeitraum zwischen den Stürmen hinweg zu konstruieren. Eine nachhaltige zivile Infrastruktur ist so konzipiert, dass sie mindestens eine menschliche Lebensspanne ohne Ausfall überdauert, oder?

PS: mehr Spaß - ein YouTube-Video (nicht meins)
https://www.youtube.com/watch?v=EACkiMRT0pc

Fußnote: Coveyou, Robert R. "Die Generierung von Zufallszahlen ist zu wichtig, um sie dem Zufall zu überlassen." Angewandte Wahrscheinlichkeits- und Monte-Carlo-Methoden und moderne Aspekte der Dynamik. Studium der angewandten Mathematik 3 (1969): 70-111.


2
Ich kann nicht klar genug sein. Mein Hauptanliegen ist, warum die Daten nicht angepasst, extreme value distributionsondern verwendet the overall distributionwerden, um die 98,5% -Werte zu erhalten.
CQCN1991

Was meinen Sie mit der Gesamtbevölkerung?
kjetil b halvorsen

1
hat die Antwort aktualisiert.
EngrStudent - Wiedereinsetzung von Monica am

2
@EngrStudent tolle Antwort, aber es wäre noch besser, wenn Sie zeigen würden, wie EVT hier besser funktioniert, als die Normalverteilung zu verwenden, und nicht nur eine Illustration liefern.
Tim

2
Nach einigen Modellierungsarbeiten würde ich sagen, dass die Verwendung der übergeordneten Verteilung einfach gefährlich ist, da es nur wenige Daten gibt und die Extrapolation für die Modellierung extremer Ereignisse nur gefährlich und instabil ist. Und so sollten wir stattdessen die EV-Theorie anwenden.
cqcn1991

7

Sie verwenden die Extremwerttheorie, um aus den beobachteten Daten zu extrapolieren . Häufig sind die Daten, über die Sie verfügen, einfach nicht groß genug, um eine vernünftige Schätzung der Endwahrscheinlichkeit zu erhalten. Nehmen wir das Beispiel von @ EngrStudent für ein 1-in-1000-Jahr-Ereignis: Dies entspricht der Ermittlung des 99,9% -Quantils einer Verteilung. Wenn Sie jedoch nur 200 Jahre Daten haben, können Sie nur empirische Quantilschätzungen von bis zu 99,5% berechnen.

Mit Hilfe der Extremwerttheorie können Sie das 99,9% -Quantil schätzen, indem Sie verschiedene Annahmen über die Form Ihrer Verteilung im Schwanz treffen: Es ist glatt, es zerfällt mit einem bestimmten Muster und so weiter.

Sie denken vielleicht, dass der Unterschied zwischen 99,5% und 99,9% gering ist. Immerhin sind es nur 0,4%. Aber das ist ein Unterschied in der Wahrscheinlichkeit , und wenn Sie im Schwanz sind, kann sich dies in einem großen Unterschied bei den Quantilen niederschlagen . Hier ist eine Illustration, wie es für eine Gammaverteilung aussieht, die im Moment keinen sehr langen Schwanz hat. Die blaue Linie entspricht dem 99,5% -Quantil und die rote Linie dem 99,9% -Quantil. Während der Unterschied zwischen diesen auf der vertikalen Achse gering ist, ist der Abstand auf der horizontalen Achse erheblich. Der Abstand wird nur bei wirklich langschwänzigen Distributionen größer. Das Gamma ist eigentlich ein ziemlich harmloser Fall.

Bildbeschreibung hier eingeben


Ihre Antwort ist falsch. Der 99,9% -Punkt eines jährlichen Normal-Würfels entspricht nicht einem 1: 1000-Ereignis. Das Maximum von 1000 Normalen hat eine andere Verteilung. Ich denke, das wird in anderen Antworten angesprochen.
Mark L. Stone

@ MarkL.Stone Nirgendwo habe ich etwas über das Maximum von 1000 Normalen gesagt.
Hong Ooi

1
Das ist genau mein Punkt. Die 1 in einem 1000-jährigen Ereignis sollte auf dem Maximum von 1000 jährlichen Normalen basieren. Das ist etwas ganz anderes als der 99,9-Dollar-Punkt bei einem jährlichen Normalwert. Siehe meinen Kommentar zu Karel Maceks Antwort weiter unten.
Mark L. Stone

@ MarkL.Stone Der Punkt des Graphen ist nur, um zu zeigen, dass kleine Änderungen der Wahrscheinlichkeiten großen Änderungen der Quantile entsprechen, wenn Sie im Heck sind. Sie können das 99% -Quantil eines GEV, einer GPD oder einer anderen Verteilung ersetzen. (Und ich habe nicht einmal die Normalverteilung erwähnt.)
Hong Ooi

Außerdem ist die Schätzung von Maxima über das GEV nur eine Möglichkeit, Schwanzquantile zu erhalten. Die andere Möglichkeit besteht darin, Quantile direkt über die GPD zu schätzen (unter der Annahme einer schwerwiegenden Verteilung).
Hong Ooi

7

Wenn Sie nur in einem Schwanz interessiert sind , macht es Sinn , dass Sie Ihre Daten konzentrieren Sammlung und Analyse Aufwand auf dem Schwanz. Es sollte effizienter sein, dies zu tun. Ich habe die Datenerfassung hervorgehoben, da dieser Aspekt oft ignoriert wird, wenn ein Argument für EVT-Verteilungen präsentiert wird. Tatsächlich ist es möglicherweise nicht möglich, die relevanten Daten zu erfassen, um abzuschätzen, was Sie in einigen Bereichen als Gesamtverteilung bezeichnen . Ich werde es weiter unten genauer erklären.

Wenn Sie eine Flut in 1000 Jahren wie im Beispiel von @ EngrStudent betrachten, benötigen Sie viele Daten, um den Körper der Normalverteilung mit Beobachtungen zu füllen. Möglicherweise benötigen Sie jede Überschwemmung, die in den letzten Hunderten von Jahren aufgetreten ist.

Jetzt halte für eine Sekunde inne und überlege, was genau eine Flut ist. Wenn mein Garten nach einem heftigen Regen überflutet ist, ist es dann eine Überschwemmung? Wahrscheinlich nicht, aber wo genau ist die Linie, die ein Hochwasser von einem Ereignis abgrenzt, das kein Hochwasser ist? Diese einfache Frage hebt das Problem mit der Datenerfassung hervor. Wie können Sie sicherstellen, dass wir alle Körperdaten nach demselben Standard über Jahrzehnte oder vielleicht sogar Jahrhunderte hinweg erfassen? Es ist praktisch unmöglich, Daten über die Verteilung der Überschwemmungen zu sammeln.

Daher ist es nicht nur eine Frage der Effizienz der Analyse , sondern eine Frage der Durchführbarkeit der Datensammlung : ob die gesamte Verteilung zu modellieren oder einfach nur einen Schwanz?

Mit Schwänzen ist die Datenerfassung natürlich viel einfacher. Wenn wir die ausreichend hohe Schwelle für eine riesige Flut definieren , haben wir möglicherweise eine größere Chance, dass alle oder fast alle derartigen Ereignisse auf irgendeine Weise aufgezeichnet werden. Es ist schwer, eine verheerende Flut zu übersehen, und wenn irgendeine Zivilisation anwesend ist, werden Erinnerungen an das Ereignis gespeichert. Daher ist es sinnvoll, die Analysewerkzeuge so zu gestalten, dass sie sich speziell auf die Schwänze konzentrieren, da die Datenerfassung bei extremen Ereignissen viel robuster ist als bei nicht extremen in vielen Bereichen, beispielsweise bei Zuverlässigkeitsstudien.


+1 Interessante und schlüssige Punkte, besonders in den Bemerkungen am Ende.
whuber

(+1) Bezogen auf Ihren letzten Punkt (erhaltenes Gedächtnis) kann der Sadler-Effekt von Interesse sein.
GeoMatt22

@ GeoMatt22, das ist das erste Mal, dass ich das Papier und den Sadler-Effekt gesehen habe. Vielen Dank für den Link
Aksakal

Das ist wirklich ein ausgezeichneter Punkt. Da es sich um ein System handelt, kann ein systemischer Ansatz eine hervorragende Ausbeute erzielen. Die beste Analyse der Welt kann mit Junk-Daten vergiftet werden. Eine relativ einfache Analyse kann, wenn sie mit guten Daten gespeist wird, großartige Ergebnisse erzielen. Gute Argumente!
EngrStudent

6

Normalerweise bezieht sich die Verteilung der zugrunde liegenden Daten (z. B. Gaußsche Windgeschwindigkeit) auf einen einzelnen Abtastpunkt. Das 98. Perzentil gibt an, dass für jeden zufällig ausgewählten Punkt eine Wahrscheinlichkeit von 2% besteht, dass der Wert größer als das 98. Perzentil ist.

Ich bin kein Bauingenieur, aber ich würde mir vorstellen, was Sie wissen möchten, ist nicht die Wahrscheinlichkeit, dass die Windgeschwindigkeit an einem bestimmten Tag über einer bestimmten Zahl liegt, sondern die Verteilung der größtmöglichen Böe über, sagen wir, der Verlauf des Jahres. In diesem Fall, wenn die täglichen Windböenmaxima beispielsweise exponentiell verteilt sind, ist die Verteilung der maximalen Windböen über 365 Tage das, was die Extremwertverteilung lösen sollte.


1

Die Verwendung des Quantils vereinfacht die weitere Berechnung. Die Bauingenieure können den Wert (z. B. Windgeschwindigkeit) in ihre Grundformeln einsetzen und das Verhalten des Systems für die extremen Bedingungen ermitteln, die dem 98,5% -Quantil entsprechen.

Die Verwendung der gesamten Verteilung scheint mehr Informationen zu liefern, würde jedoch die Berechnungen erschweren. Es könnte jedoch die Verwendung fortschrittlicher Risikomanagement-Ansätze ermöglichen, die die mit (i) dem Bau und (ii) dem Ausfallrisiko verbundenen Kosten optimal ausgleichen.


Naja ... ich bin vielleicht nicht klar genug. Ich möchte nur wissen, warum wir die Extremwerttheorie verwenden und nicht die allgemeine Verteilung (die gesamte Verteilung?), Die wir normalerweise verwenden.
CQCN1991

1
Wenn die kumulative Verteilungsfunktion für eine Instanz, wie beispielsweise die tägliche maximale Windgeschwindigkeit, F (x) ist, dann ist die kumulative Verteilungsfunktion für das Maximum von n unabhängigen Instanzen (z. B. n = 365 für ein Jahr mit täglicher maximaler Windgeschwindigkeit) ) ist F ^ n (x). Dies ist anders als F (x).
Mark L. Stone
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.