Assoziationstest für einen normalverteilten DV durch richtungsunabhängige Variablen?


10

Gibt es einen Hypothesentest, ob eine normalverteilte abhängige Variable einer direktional verteilten Variablen zugeordnet ist?

Wenn beispielsweise die Tageszeit die erklärende Variable ist (und Dinge wie Wochentag, Monat des Jahres usw. irrelevant sind), kann auf diese Weise die Tatsache berücksichtigt werden, dass 23 Uhr 22 Stunden vor 1 Uhr morgens und 2 Uhr morgens ist Stunden hinter 1 Uhr morgens in einem Assoziationstest? Kann ich testen, ob die kontinuierliche Tageszeit die abhängige Variable erklärt, ohne davon auszugehen, dass eine Minute nach 23:59 Uhr keine Mitternacht um 12:00 Uhr folgt?

Gilt dieser Test auch für diskrete Richtungsvariablen ( modular ?)? Oder erfordert das einen separaten Test? Zum Beispiel, wie zu testen ist, ob die abhängige Variable durch den Monat des Jahres erklärt wird (vorausgesetzt, Tag und Jahreszeit sowie ein bestimmtes Jahr oder Jahrzehnt sind irrelevant). Bei der Behandlung des Monats des Jahres wird die Bestellung kategorisch ignoriert. Wenn Sie jedoch den Monat des Jahres als Standard-Ordnungsvariable behandeln (z. B. Jan = 1 ... Dec = 12), wird ignoriert, dass der Januar zwei Monate nach November liegt.


1
Die Antwort könnte ein Buch füllen (und es gibt mehrere davon da draußen). Wenn Sie Ihre Frage genauer formulieren, können Sie die Antworten auf das konzentrieren, was für Sie wichtig ist.
whuber

@whuber Ähm ... meine Güte ... kannst du mir helfen, wie ich mich verengen kann? Festlegen einer Verteilung für den DV? Beschränken Sie sich auf einen einzigen Test und nicht auf eine Regression? Ich bin ein bisschen ratlos und weiß nicht, wo ich anfangen soll ...
Alexis

@whuber Ich habe versucht, die Frage ein wenig einzugrenzen, und wäre dankbar für Hinweise, die sie nützlicher machen (ich möchte wirklich nur einen Ausgangspunkt für das Nachdenken über modulare Prädiktoren). Wenn dies jetzt in anständiger Form vorliegt, werde ich wahrscheinlich eine ähnliche Frage zu einem solchen Test stellen, der im DV verteilungsfrei ist.
Alexis

@whuber Mulling der diskreten modularen IV in einem Regressionskontext: würde ein gemischtes Modell mit zwei Ebenen mit der diskreten modularen IV als Identifikator der Ebene 2 mit jeder Einheit der Ebene 2 mit einer prä- und post-zufälligen Effektvariablen gleich der vorhergehender und nachfolgender Wert im Zahlensystem auf dem richtigen Weg sein?
Alexis

Antworten:


9

Im Allgemeinen halte ich es wissenschaftlich und statistisch für fruchtbarer, zunächst eine umfassendere und andere Frage zu stellen: Wie weit kann eine Antwort von einem zirkulären Prädiktor vorhergesagt werden? Ich sage hier eher kreisförmig als gerichtet , teilweise weil letzteres sphärische und noch fabelhaftere Räume enthält, die nicht alle in einer einzigen Antwort abgedeckt werden können; und teilweise, weil Ihre Beispiele, Tageszeit und Jahreszeit , beide kreisförmig sind. Ein weiteres wichtiges Beispiel ist die Kompassrichtung (relevant für Winde, Tier- oder Menschenbewegungen, Ausrichtungen usw.), die bei vielen Kreisproblemen auftritt: Für einige Wissenschaftler ist dies tatsächlich ein offensichtlicherer Ausgangspunkt.

Wann immer Sie damit durchkommen können, ist die Verwendung von Sinus- und Cosinusfunktionen der Zeit in einer Art Regressionsmodell eine einfache und leicht zu implementierende Modellierungsmethode. Es ist die erste Anlaufstelle für viele biologische und / oder umweltbezogene Beispiele. (Die beiden Arten sind oft miteinander verbunden, da biotische Phänomene, die Saisonalität zeigen, normalerweise direkt oder indirekt auf das Klima oder das Wetter reagieren.)

Stellen Sie sich der Vollständigkeit halber Zeitmessungen über 24 Stunden oder 12 Monate vor, so dass z

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

Jeder beschreibt einen Zyklus über den gesamten Tag oder das ganze Jahr. Ein formaler Test ohne Beziehung zwischen einer gemessenen oder gezählten Antwort und einer Kreiszeit wäre dann ein Standardtest, ob die Koeffizienten von Sinus und Cosinus in einem verallgemeinerten linearen Modell mit Sinus und Cosinus als Prädiktoren, einer geeigneten Verbindung und Familie gemeinsam Null sind entsprechend der Art der Antwort ausgewählt werden.

Die Frage der marginalen Verteilung der Antwort (normal oder anders) ist bei diesem Ansatz zweitrangig und / oder muss von der Familie gewählt werden.

Der Vorteil von Sinus und Cosinus besteht natürlich darin, dass sie periodisch sind und automatisch umlaufen, sodass die Werte am Anfang und am Ende eines jeden Tages oder Jahres notwendigerweise ein und dasselbe sind. Es gibt kein Problem mit Randbedingungen, da es keine Randbedingungen gibt.

Dieser Ansatz wurde als zirkuläre, periodische, trigonometrische und Fourier-Regression bezeichnet. Eine Einführung in das Tutorial finden Sie hier

In der Praxis,

  1. Solche Tests zeigen normalerweise überwiegend signifikante Ergebnisse auf herkömmlichem Niveau, wenn wir Saisonalität erwarten. Die interessantere Frage ist dann die genaue geschätzte saisonale Kurve und ob wir ein komplizierteres Modell mit anderen sinusförmigen Begriffen benötigen.

  2. Nichts schließt auch andere Prädiktoren aus. In diesem Fall benötigen wir einfach umfassendere Modelle mit anderen Prädiktoren, z. B. Sinus und Cosinus für die Saisonalität und andere Prädiktoren für alles andere.

  3. Abhängig von den Daten, dem Problem sowie dem Geschmack und der Erfahrung des Forschers kann es irgendwann natürlicher werden, den Zeitreihenaspekt des Problems hervorzuheben und ein Modell mit expliziter Zeitabhängigkeit zu erstellen. In der Tat würden einige statistisch denkende Menschen bestreiten, dass es einen anderen Weg gibt, sich dem anzunähern.

Was leicht als Trend bezeichnet werden kann (aber nicht immer so leicht zu identifizieren ist), fällt entweder unter # 2 oder # 3 oder sogar unter beides.

0,1. Dies kann ein praktischer Weg sein, um die Auswirkungen benannter Feiertage, Urlaubszeiten, Nebenwirkungen von Schuljahren usw. sowie Einflüsse oder Schocks klimatischen oder wetterbedingten Ursprungs zu erfassen. Angesichts dieser Unterschiede gelten die meisten der obigen Kommentare auch für die Wirtschafts- und Sozialwissenschaften.

Einstellungen und Ansätze von Epidemiologen und medizinischen Statistikern, die sich mit Schwankungen der Morbidität, Mortalität, Krankenhauseinweisungen, Klinikbesuchen und dergleichen befassen, liegen tendenziell zwischen diesen beiden Extremen.

Meiner Ansicht nach ist es normalerweise willkürlich, künstlich und bestenfalls umständlich, Tage oder Jahre in zwei Hälften zu teilen, um sie zu vergleichen. Es wird auch die Art der glatten Struktur ignoriert, die typischerweise in den Daten vorhanden ist.

BEARBEITEN Der bisherige Bericht befasst sich nicht mit dem Unterschied zwischen diskreter und kontinuierlicher Zeit, aber ich halte ihn aus meiner Erfahrung in der Praxis nicht für eine große Sache.

Die genaue Auswahl hängt jedoch davon ab, wie die Daten ankommen und wie sich die Muster ändern.

Wenn die Daten vierteljährlich und menschlich wären, würde ich tendenziell Indikatorvariablen verwenden (z. B. sind die Quartale 3 und 4 oft unterschiedlich). Wenn monatlich und menschlich, ist die Wahl nicht klar, aber Sie müssten hart arbeiten, um Sinus und Cosinus an die meisten Ökonomen zu verkaufen. Wenn monatlich oder feiner und biologisch oder umweltbedingt, definitiv Sinus und Cosinus.

EDIT 2 Weitere Details zur trigonometrischen Regression

θ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

sinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

cosϕsinϕ

b1sinθ+b2cosθ


Ich stelle einige nicht überraschende Überschneidungen mit der Antwort von @Kelvin fest.
Nick Cox

+1 (Esp. Für die Verwendung von "fabelhaft" wie Sie! :) Nick Cox, wären Sie so freundlich, den Fall auch für diskrete zirkuläre Variablen gemäß meiner Frage explizit zu machen ? Wäre das so einfach wie der Ansatz der "trigonometrischen Modellierung", den Sie mit einem diskreten Zeitmaß beschreiben? Oder müsste es irgendeine Art von "Kontinuitätskorrekturen" geben?
Alexis

Soweit mir bekannt ist, besteht der einzige Unterschied zwischen diskreten und kontinuierlichen kreisförmigen Variablen in der Rundung von Werten auf diskrete Punkte (z. B. 14 Uhr gegenüber 14.12345 Uhr), wie bei nicht kreisförmigen Variablen, sodass es keinen großen Unterschied gibt solange Sie weniger Rundung mit kleinen Schritten im Verhältnis zum Gesamtzeitraum anwenden. Grundsätzlich geht es nur darum, ob ein Rundungsfehler vorliegt oder nicht. Am besten nicht, wenn Sie es vermeiden können.
Kelvin

Ich stimme zu, dass diskret und kontinuierlich nicht viel verschieden sind. In der Praxis werden viele Messungen mehr oder weniger vergröbert, indem nur in Quartalen, halben Jahren, Monaten, Tagen usw. oder von (N. S) über (N, E, S, W) bis hin zu einer feineren Auflösung berichtet wird für Kompassrichtungen. Im Detail gibt es Unterschiede zwischen Punktmessungen (die Temperatur zu einem genauen Zeitpunkt) und Intervallmessungen (z. B. monatliche Gesamtverkäufe). Ich würde nicht alle diese Details als Rundungsfehler zusammenfassen, da manchmal kein Fehler vorliegt, sondern nur Aggregation oder Mittelwertbildung.
Nick Cox

4

Hier ist eine verteilungsfreie Option, da Sie anscheinend sowieso danach suchen. Es ist nicht speziell auf dem Gebiet der Zirkularstatistik, von dem ich ziemlich wenig weiß, aber es ist hier und in vielen anderen Situationen anwendbar.

X

YRdd1

Z:=(X,Y)mzi=(xi,yi)

Führen Sie nun einen Test mit dem Hilbert Schmidt Independence Criterion (HSIC) durch, wie im folgenden Artikel beschrieben:

Gretton, Fukumizu, Teo, Song, Schölkopf und Smola. Ein statistischer Unabhängigkeitstest des Kernels. NIPS 2008. ( pdf )

Das ist:

  • kX

    • XR2k(x,x)=exp(12σ2xx2)σX
    • X[π,π]k(x,x)=exp(κcos(xx))κ
  • lYYRn

  • HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

Der Matlab-Code für die Ausführung mit RBF-Kerneln ist hier beim Erstautor erhältlich .


Dieser Ansatz ist gut, weil er allgemein gehalten ist und eine gute Leistung erbringt. Die Hauptnachteile sind:

  • m2
  • mm
  • kl


k(xx)[π,π]


3

Sie könnten einen t- Test zwischen dem Mittelwert aus entgegengesetzten "Hälften" des Zeitraums durchführen, indem Sie beispielsweise den Mittelwert von 12 bis 12 Uhr mit dem Mittelwert von 12 bis 12 Uhr vergleichen. Vergleichen Sie dann den Mittelwert von 18 bis 6 Uhr mit dem Mittelwert von 6 bis 18 Uhr.

Wenn Sie über genügend Daten verfügen, können Sie den Zeitraum in kleinere (z. B. stündliche) Segmente aufteilen und einen t- Test zwischen jedem Segmentpaar durchführen, während Sie mehrere Vergleiche korrigieren.

Alternativ können Sie für eine "kontinuierlichere" Analyse (dh ohne willkürliche Segmentierung) lineare Regressionen gegen die Sinus- und Cosinusfunktionen Ihrer Richtungsvariablen (mit der richtigen Periode) ausführen, wodurch Ihre Daten automatisch "zirkularisiert" werden:

x=sin(x2π/period)
x=cos(x2π/period)

a

x=sin((x+a)2π/period)

a

yxx

In jedem Fall denke ich, dass Sie einige Annahmen bezüglich des Zeitraums treffen und dann entsprechend testen müssen.


Kelvin, der die von Ihnen beschriebenen zirkulären Daten "bricht", scheint genau das Problem zu ignorieren , das ich bezüglich der modularen Reihenfolge angesprochen habe.
Alexis

Haben Sie die zweite Hälfte meiner Antwort gelesen, in der die kontinuierliche Analyse durch multiple Regression beschrieben wird?
Kelvin

Sie haben Recht mit Sinus und Cosinus zusammen. Dies wird in meiner Antwort und in dem darin zitierten Papier von 2006 sowie in weiteren Referenzen, die darin zitiert werden, weiter erläutert.
Nick Cox

@Nick - Ich hatte Ihre Antwort nicht gesehen, wie Sie sie nach meiner letzten Bearbeitung gepostet haben, aber gut, dass wir unabhängig voneinander zu derselben Antwort gekommen sind, da ich nur kreativ war (virtuell laut gedacht) und dies noch nie zuvor gesehen hatte.
Kelvin
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.