Ich muss Ausreißer und hohe Hebelpunkte identifizieren und eine Modelldiagnose in einem lme4
Modell durchführen. Für Ausreißer und hohe Hebelpunkte wäre es schön, einfach ein Diagramm zur visuellen Inspektion zu erstellen, das jedoch nicht ausreicht. Ich habe 10.800 Datenpunkte und muss jeden Punkt über einen Analyse- oder Computertest entweder als Ausreißer / High-Leverage oder nicht als Ausreißer / High-Leverage markieren . Nach der Identifizierung von Ausreißern / Punkten mit hohem Hebel werde ich einen separaten Prozess durchlaufen, um zu entscheiden, ob die Punkte aus dem Datensatz ausgeschlossen werden sollen oder nicht.
Der Ausschluss von Punkten berücksichtigt zusätzlich zu der oben erwähnten automatisierten Identifizierung die vorherige detaillierte Analyse der Rohdatenquelle jeder Beobachtung (eine Audioaufzeichnung). Hier bezeichne ich diesen Prozess als "selektives Löschen".
Ich muss auch verstehen, ob meine Ausreißer auf "marginalen" oder "bedingten" Residuen basieren sollten und ob meine Hebelwirkung auf festen oder festen plus zufälligen Effekten basieren sollte. Für Definitionen von "marginal" und "bedingt" sowie mögliche Definitionen von Hebelwirkung verfolge ich Diagnose und Behandlung für lineare gemischte Modelle , Singer et al., 2013 .
Dh mit einem gemischten Modell der Form ... Wobei eine symmetrische, positive Definition ist Matrix. Mit marginal meine ich Residuen der Form: Mit bedingt meine ich Residuen der Form: Meine Fragen sind:
- Wie man Ausreißer identifizieren über ein automatisiertes Verfahren auf einem Basis -
lme4
Modell. - Ob marginale oder bedingte Residuen verwendet werden sollten, um Kandidaten für die selektive Löschung zu identifizieren.
- Welche Art von Residuen sollte zur Beurteilung von Normalität, Linearität, Homoskedastizität usw. verwendet werden?
- Wie man hohe Hebelpunkte zum Zwecke der selektiven Löschung identifiziert und ob man Hebel aus festen oder allen Effekten verwendet (siehe Singer et al. , Oben).
- Wie kann man testen, ob als , dh als allgemeines Multi-Variate-Normal? Wird dies einfach durch Betrachten der QQ-Diagramme der zufälligen Effekte erreicht? Was ist, wenn Kovarianzen hat, dh nicht-diagonale Terme ungleich Null? Ist es immer noch ausreichend, eindimensionale QQ-Diagramme für jeden zufälligen Effekt zu betrachten, um diese Art von Normalität zu bewerten? Oder ist eine Transformation erforderlich?