Methode zur Erzeugung korrelierter nicht normaler Daten


14

Ich bin daran interessiert, eine Methode zur Erzeugung korrelierter, nicht normaler Daten zu finden. Im Idealfall also eine Art Verteilung, die eine Kovarianz- (oder Korrelations-) Matrix als Parameter verwendet und Daten generiert, die sich dieser annähern. Aber hier ist der Haken: Die Methode, die ich zu finden versuche, sollte die Flexibilität haben, auch ihre multivariate Schiefe und / oder Kurtosis zu kontrollieren.

Ich bin mit Fleishmans Methode und der Anwendung der Potenzmethode normaler Variablen vertraut, aber ich glaube, dass die meisten dieser Erweiterungen dem Benutzer nur bestimmte Kombinationen von Randversatz und Kurtosis erlauben , so dass die multivariate Versatz / Kurtosis einfach da draußen bleibt. Was ich mich gefragt habe, ist, ob es eine Methode gibt, die dabei hilft, die multivariate Schiefe und / oder Kurtosis zusammen mit einer gewissen Korrelations- / Kovarianzstruktur zu spezifizieren.

Vor ungefähr einem Jahr nahm ich an einem Seminar über Copula-Verteilungen teil, und ich erinnere mich, dass der Professor beiläufig erwähnte, dass man durch die Verwendung von Reben-Copulas Daten erzeugen könnte, die beispielsweise in jedem seiner 1-D-Ränder symmetrisch, aber gemeinsam schief und umgekehrt sind -versa. Oder, noch weiter, dass alle Ränder mit niedrigeren Dimensionen eine gewisse Schiefe oder Kurtosis aufweisen könnten, während die höchsten Dimensionen symmetrisch bleiben (oder nicht). Ich war erstaunt über die Idee, dass es eine solche Flexibilität geben könnte. Ich habe versucht, einen Artikel oder ein Konferenzpapier zu finden, in dem diese Methode beschrieben wird. Ich bin offen für alles, was funktioniert.

Bearbeiten: Ich habe einen R-Code hinzugefügt, um zu zeigen, was ich meine. Bisher bin ich nur mit Mardias Definition von multivariater Schiefe und Kurtosis vertraut. Als ich mich zum ersten Mal meinem Problem näherte, dachte ich naiv, wenn ich eine symmetrische Kopula (in diesem Fall Gauß) mit verzerrten Rändern (in diesem Beispiel Beta) verwenden würde, würden univariate Tests der Ränder eine Signifikanz ergeben, aber Mardias Test für multivarite Schiefe / Kurtosis nicht signifikant sein. Ich habe es versucht und es kam nicht so heraus, wie ich es erwartet hatte:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

Wenn ich die Konturen für 'cop1' und 'cop2' sowie die empirischen Diagramme der bivariaten Dichte betrachte, sehe ich auch, dass keines überhaupt symmetrisch aussieht. In diesem Moment wurde mir klar, dass dies wahrscheinlich etwas komplizierter ist, als ich dachte.

Ich weiß, dass Mardia nicht die einzige Definition für multivariate Skewness / Kurtosis ist, daher beschränke ich mich nicht darauf, eine Methode zu finden, die nur die Definitionen von Mardia erfüllt.

Danke!


+1 Eine sehr interessante Frage. Könnten Sie genauer beschreiben, was "gemeinsam verzerrt" in diesem Zusammenhang bedeutet (insbesondere bivariate)? Ich kann mir zwar Formen der gemeinsamen Verteilung vorstellen, die in den vier Quadranten in gewisser Weise "unterschiedlich" sind (etwa Achsen, die an den Mittelwerten platziert sind), aber ich weiß nicht, worauf sich "gemeinsam verzerrt" konkret beziehen könnte.
Glen_b -Reinstate Monica

expXX

Hallo. Vielen Dank für Ihr Interesse an meiner Frage. Dies ist das erste Mal, dass ich hier poste, also hoffe ich, dass ich die Dinge richtig mache. Ich werde mehr auf den Kommentarbereich eingehen, da die Zeichenbeschränkung mich daran hindert, R-Code zu verwenden, um zu versuchen, zu vermitteln, was ich tue
S. Punky,

Ja, ich habe das gerade bemerkt und weitere Details hinzugefügt. Ich weiß es zu schätzen, dass Sie sich die Zeit genommen haben, mich bei der Verwendung dieses Boards anzuleiten. Vielen Dank!
S. Punky

" Ich beschränke mich nicht darauf, eine Methode zu finden, die nur Mardias Definitionen entspricht " - Methode, was zu tun?
Glen_b

Antworten:


3

Nach langen Suchen, Springen um Online - Foren, mit Professoren Beratung und dabei eine Menge Literatur, habe ich zu dem Schluss gekommen , dass wahrscheinlich DER einzige Weg , dieses Problem zu lösen in der Tat die Verwendung von Wein copulas ist durch. Es gibt Ihnen eine gewisse Kontrolle über die paarweise Schiefe und Kurtosis (oder höhere Momente) - für einen p-variablen Zufallsvektor und die Freiheit, p-1-Paar von Copulas und das verbleibende p * (p-1) / 2 - ( p-1) Dimensionen können in einer Art bedingter Kopula angegeben werden.

Ich begrüße andere Methoden, auf die die Leute vielleicht gestoßen sind, aber zumindest werde ich diesen Zeiger auf eine Antwort richten, weil ich für mein ganzes Leben keine anderen Wege finden kann, um dies anzugehen.


2
Was ist eine Weinrebe?
Sextus Empiricus

1

Sie können dieses Problem möglicherweise lösen, indem Sie den Algorithmus von Ruscio und Kaczetow (2008) ändern. Ihre Arbeit enthält einen iterativen Algorithmus (mit R-Code), der den Unterschied zwischen der tatsächlichen und der beabsichtigten Randform minimiert. Sie können es möglicherweise so ändern, dass es auf die multivariaten (und nicht auf die Randmomente) ausgerichtet ist.

Ruscio, J. & Kaczetow, W. (2008). Simulation multivariater nicht normaler Daten mit einem iterativen Algorithmus. Multivariate Verhaltensforschung, 43 (3), 355‐381. doi: 10.1080 / 00273170802285693


OH MEIN GOTT! DANKE! Ich dachte für einen Moment, dass diese Frage nur in Vergessenheit geraten würde
S. Punky

1
Nun, ich habe den Artikel von Ruscio & Kaczetow (2008) rezensiert. Leider ist es nur eine weitere (noch flexiblere) Implementierung der NORTA (NORmal To Anything) -Algorithmusfamilie, von der bekannt ist, dass sie mit multivariaten dritten und vierten Momenten nicht gut funktioniert. Ich schätze, ich bin wieder auf dem richtigen Weg.
S. Punky

0

Möglicherweise möchten Sie die allgemeine elliptische Verteilung überprüfen , die eine "klassische" Formmatrix mit Flexibilität für andere Features ermöglicht.


Vielen Dank! Ich werde diesen Link überprüfen. Sind elliptische Verteilungen nicht symmetrisch? So kann man die Kurtosis kontrollieren, aber die Schiefe muss bei 0 bleiben?
S. Punky

Klar, aber GE impliziert nicht elliptisch. Für einige schiefe elliptische Variationen überprüfen Sie auch hier: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz

0

Ich habe eine einfache Methode dafür entwickelt, bei der Coplas und andere komplexe Designs nicht berücksichtigt werden. Ich fürchte, ich habe keine formelle Referenz, obwohl die Methode sehr effektiv zu sein scheint.

Die Idee ist einfach. 1. Zeichnen Sie beliebig viele Variablen aus einer gemeinsamen Normalverteilung. 2. Wenden Sie die univariate normale CDF von Variablen an, um Wahrscheinlichkeiten für jede Variable abzuleiten. 3. Wenden Sie abschließend die inverse CDF einer beliebigen Verteilung an, um Zeichnungen aus dieser Verteilung zu simulieren.

Ich habe mir diese Methode 2012 ausgedacht und mit Stata demonstriert . Ich habe auch einen kürzlich erschienenen Beitrag geschrieben, der dieselbe Methode mit R zeigt .


(1) Was ist eine "Spearman-Normalverteilung"? (2) Welche Unterscheidung treffen Sie gegebenenfalls zwischen einem CDF und einem "normalen CDF"? (3) Können Sie erklären, wie diese Methode überhaupt eine Korrelation einführt? Ich fürchte, Ihre allgemeine Verwendung von "Variable" und "Verteilung" macht Ihre Beschreibung ziemlich vage, so dass es schwierig ist zu sagen, was es wirklich tut. Könnten Sie Ihre Antwort präziser formulieren?
whuber

danke für deinen post! Wenn man den Links folgt, kann man mehr Informationen über die Methode sehen. Es tut nicht ganz das, was ich mir erhofft hatte (dh Kontrolle über die höherwertigen, höherdimensionalen Momente der Verteilung), aber es ist immer noch ein sehr wertvoller Ansatz.
S. Punky

1
Es überrascht nicht, dass ich keine neue Methode gefunden habe: Cario, Marne C. und Barry L. Nelson. Modellierung und Erzeugung von Zufallsvektoren mit willkürlichen Randverteilungen und Korrelationsmatrix. Technischer Bericht, Abteilung für Wirtschaftsingenieurwesen und Managementwissenschaften, Northwestern University, Evanston, Illinois, 1997. Yahav, Inbal und Galit Shmueli. "Zur Generierung multivariater Poisson-Daten in verwaltungswissenschaftlichen Anwendungen." Robert H. Smith School Research Paper Nr. RHS (2009): 06-085.
Francis Smart

auch wenn es sich nicht um eine neue methode handelt, möchte ich mich trotzdem bei ihnen bedanken, dass sie sich die zeit genommen haben, meine
S. Punky

0

Ich glaube, dass die in den folgenden Abhandlungen vorgestellte Methode die Erzeugung zufälliger Multivariaten mit jeder (durchführbaren) Kombination aus Mittelwert, Varianz, Schiefe und Kurtosis ermöglicht.

  1. Stanfield, PM, Wilson, JR, und Mirka, GA 1996. Multivariate Eingangsmodellierung mit Johnson Distributions, Proceedings of the 1996 Winter Simulation Conference , Hrsg. Charnes, JM, Morrice, DJ, Brunner, DT und Swain, JJ, 1457–1464.
  2. Stanfield, PM, Wilson, JR und King, RE 2004. Flexible Modellierung korrelierter Betriebszeiten mit Anwendung in Produktwiederverwendungsanlagen, International Journal of Production Research , Band 42, Nr. 11, 2179–2196.

Haftungsausschluss: Ich bin keiner der Autoren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.