Welches Modell für einen herausfordernden Datensatz? (Hunderte von Zeitreihen mit viel Verschachtelung)

Ich habe einen ziemlich komplizierten Datensatz zu analysieren und kann keine gute Lösung dafür finden.

Hier ist das Ding:

1. Die Rohdaten sind im Wesentlichen Insekten-Song-Aufnahmen. Jedes Lied besteht aus mehreren Bursts und jeder Burst aus Untereinheiten. Alle Personen wurden 5 Minuten lang aufgezeichnet. Die Anzahl der Bursts und ihre Position in der Aufzeichnung können zwischen Individuen sehr unterschiedlich sein, ebenso wie die Anzahl der Untereinheiten pro Burst.

2. Ich habe die Trägerfrequenz (Grundfrequenz) jeder Untereinheit und das möchte ich analysieren.

Meine Probleme:

1. Die Frequenzen innerhalb eines Bursts sind offensichtlich nicht unabhängig (obwohl es ziemlich stabil ist, aber die Frequenz der Untereinheit n-1 hat einen Einfluss auf die Untereinheit n).

2. Die Bursts sind innerhalb einer Aufnahme auch nicht unabhängig.

3. Sie sind noch weniger unabhängig, wenn die Frequenz mit der Zeit abnimmt (die Person wird es leid zu singen, so dass die Frequenz des Liedes immer niedriger wird). Das Fallen scheint linear zu sein.

4. Verschachtelung = Ich habe 3 replizierte Populationen für zwei Standorte A und B. Ich habe also A1, A2, A3 und B1, B2, B3.

Was ich gerne machen würde:

1. Charakterisieren Sie den Frequenzunterschied zwischen meinen beiden Standorten (statistisch testen)

2. Charakterisieren Sie den Frequenzabfall zwischen den beiden Standorten (prüfen Sie, ob er an einem von ihnen schneller abfällt).

Wie es geht:

Deshalb brauche ich Hilfe: Ich weiß es nicht. Es scheint, dass mein Fall Probleme kombiniert, die normalerweise nicht zusammen gesehen werden. Ich habe über gemischte Modelle, über GAM, über ARIMA, zufällige und feste Effekte gelesen, aber ich kann mir nicht sicher sein, wie ich das am besten machen kann. Wenn ich es jedoch grafisch darstelle (Frequenz ~ Untereinheit Nummer n ), ist der Unterschied zwischen den beiden Orten sehr deutlich. Ich muss auch andere Variablen berücksichtigen, wie die Temperatur (erhöht die Frequenz) usw.

Ich habe darüber nachgedacht:

Verschachteln der Personen innerhalb des Replikats, von dem sie stammen, und Verschachteln des Replikats innerhalb des Speicherorts (Einzelperson / Replikat / Standort).
Verwenden Sie einen zufälligen 'Burst'-Effekt, damit ich die Variabilität innerhalb jedes Bursts berücksichtige.
Verwenden Sie einen festen Effekt "Burst-Position bei Aufnahme", um den Frequenzabfall zu messen (in der Hoffnung, dass er tatsächlich linear ist).

Wäre es richtig?

Gibt es einen speziellen Modelltyp, den ich für diese Art von Szenario verwenden könnte?

— Joe
quelle

Willkommen auf dieser Seite, Joe. Sie müssen sich nicht in Ihrem Beitrag anmelden, Ihr Name wird immer unter Ihrem Gravatar angezeigt :)

— chl

Ok und danke! Es ist eine sehr schöne Website, sehr gut gemacht.

— Joe

"Das Verschachteln der Personen innerhalb des Replikats, von dem sie stammen, und das Verschachteln des Replikats innerhalb des Speicherorts (Einzelperson / Replikat / Standort)" klingt im Vergleich zu den nicht verschachtelten Formularen nach einer guten Idee. Wie sieht ein LOESS Ihrer sechs Subpopulationen aus?

— Fr.

Vielen Dank für Ihre Antworten, sehr geschätzt. Nun, es hat lange gedauert, aber ich habe es geschafft, diesen (blutigen) Datensatz zu analysieren. Ich war zu ehrgeizig, um alles gleichzeitig zu modellieren. Daher habe ich den Job für jedes Problem in verschiedene Modelle unterteilt (durchschnittliche Frequenzdifferenz, Frequenzerhöhung usw.). Fazit: Manchmal ist es besser, den Job aufzuteilen!

— Joe

Dies sind nur einige allgemeine Vorschläge, die Sie vielleicht hilfreich finden, eher eine Roadmap als ein Rezept.

Mein Instinkt wäre, ein Bayes'sches hierarchisches Modell zu erstellen, da es sich für die iterative Modellentwicklung eignet. Ich glaube nicht, dass Sie ein vorhandenes Modell finden werden, das alle Schnickschnack enthält, nach denen Sie suchen. Aber das macht das Testen von Hypothesen schwieriger. Ich weiß nicht, wie notwendig das Testen von Hypothesen für Sie ist.
Es hört sich so an, als hätten Sie ein kleines informelles Modell im Kopf, wie sich die Insekten verhalten. Sie sagen Dinge wie "müde werden" und Sie wissen, dass die Temperatur die Frequenz erhöht, vermutlich weil das Tier mehr Energie hat. Es hört sich so an, als hätten Sie ein kleines generatives Modell im Kopf, wie die Insekten ihre Lieder machen.
Das Problem klingt viel zu komplex, um es "auf einen Schlag" zu modellieren. Ich denke, Sie müssen etwas Stück für Stück aufbauen. Ich würde mit einigen "starken einfachen Annahmen" beginnen - dh den größten Teil der Komplexität des Datensatzes wegwerfen und planen, ihn später wieder hinzuzufügen, sobald Sie ein einfaches Modell haben, das funktioniert.

Zu Beginn würde ich also so etwas wie die Frequenzen der Untereinheiten Burst für Burst in ein Paar (mittlere Frequenz, Frequenztrend) vorverarbeiten - dies mit OLS tun und nur den Frequenzmittelwert und den Trend von modellieren ein Ausbruch eher als die Untereinheiten selbst. Oder Sie könnten dies tun (Mittelwert, Trend, Anzahl der Untereinheiten), wenn die Anzahl der Untereinheiten davon abhängt, wie müde das Insekt wird. Erstellen Sie dann ein Bayes'sches hierarchisches Modell, bei dem die Verteilung von Mittelwert und Trend eines Bursts durch den Mittelwert, den Trend der Aufzeichnung und dies wiederum durch den Mittelwert, den Trend des Ortes, bestimmt wird.

Fügen Sie dann die Temperatur als Faktor für den Aufzeichnungsmittelwert / -trend hinzu.

Dieses einfache Modell sollte es Ihnen ermöglichen, den Mittelwert und den Trend der einzelnen Bursts in einer Aufzeichnung zu sehen, die durch die Temperatur und den Ort bestimmt werden. Versuchen Sie, dies zum Laufen zu bringen.

Dann würde ich versuchen, die Differenz zwischen der mittleren Frequenz der Bursts (oder dem Trend durch Teilen über die Ruhezeit zwischen den Bursts) zu schätzen, indem ich diese als Variable addiere, die durch den Ort und die Aufzeichnung bestimmt wird. Der nächste Schritt ist ein AR-Modell des Burst-Mittelwerts innerhalb einer Aufzeichnung.

Angesichts einiger Prioritäten und einiger sehr starker Annahmen über die Art der Bursts (dass alle Informationen durch Mittelwert und Trend angegeben werden) wird Ihnen dieses Grundmodell Folgendes sagen:

Wie ist die mittlere Frequenz eines Bursts von Ort zu Ort und von Temperatur zu Temperatur unterschiedlich?
Wie unterscheidet sich der Trend innerhalb des Bursts von Ort zu Ort und von Temperatur zu Temperatur?
Wie unterscheidet sich der Outside-Burst-Trend von Ort zu Ort und von Temperatur zu Temperatur?

Sobald Sie so etwas zum Laufen haben, ist es möglicherweise an der Zeit, die Untereinheiten selbst zu modellieren und die ursprüngliche OLS-Schätzung wegzuwerfen. Ich würde mir die Daten an dieser Stelle ansehen, um eine Vorstellung davon zu bekommen, welche Art von Zeitreihenmodell passen könnte, und die Parameter des Zeitreihenmodells anstelle von (Mittelwert-, Trend-) Paaren modellieren.

— Patrick Caldon
quelle