Kontinuierliche und kategoriale Analyse variabler Daten


9

Ich habe drei Variablen:

  • Abstand (kontinuierlicher, variabler Bereich negativer Unendlichkeit bis positiver Unendlichkeit)
  • isLand (diskret kategorial / Boolesch, variabler Bereich 1 oder 0)
  • Insassen (diskret kategorisch, variabler Bereich 0-7)

Ich möchte folgende statistische Fragen beantworten:

  • Wie vergleiche ich Verteilungen, die sowohl kategoriale als auch kontinuierliche Variablen haben? Zum Beispiel möchte ich feststellen, ob die Datenverteilung von Entfernung zu Insassen abhängig vom Wert von isLand variiert.
  • Kann ich bei zwei der drei Variablen die dritte anhand einer Gleichung vorhersagen?
  • Wie kann ich die Unabhängigkeit mit mehr als zwei Variablen bestimmen?

1
Ich würde Ihnen empfehlen, dies auf drei verschiedene Fragen aufzuteilen.
Shane

Jetzt, wo ich das etwas genauer lese, sehe ich, dass die Antwort für jeden sehr eng miteinander verbunden ist.
Shane

Ich hatte das Gefühl, dass das Herzstück der Frage darin besteht, zwei verschiedene Verteilungen zu vergleichen. Ich liste zufällig drei verschiedene Möglichkeiten auf, dies zu tun.
Elpezmuerto

Für occupantswas du hast eine Ordnungs variabel ist, so würde ich nicht daran denken , wie kategorisch. Besonders mit 8 Werten ist es fast kontinuierlich.
Mike Dunlavey

Antworten:


5

Ich würde empfehlen, insbesondere über logistische oder logarithmisch lineare Modelle und Methoden zur kategorialen Datenanalyse im Allgemeinen zu lesen. Die Anmerkungen zum folgenden Kurs sind für den Anfang ziemlich gut: Analyse diskreter Daten . Das Lehrbuch von Agresti ist ziemlich gut. Sie könnten auch Kleinbaum für einen schnellen Start in Betracht ziehen .


Ich habe gerade das Agresti-Lehrbuch auf meinem Schreibtisch und habe es benutzt. Das Problem ist, dass ich nicht wusste, welche spezifische Methodik ich verwenden sollte.
Elpezmuerto

2
@Elpezmuerto Ganz kurz, um die Antwort von @ars zu ergänzen, kann Frage 1 mit einem Bedingungs- oder Gitterplot beantwortet werden, z. B. etw wie bei der dist ~ occ | isLandVerwendung von Lattice, oder die coplot()Funktion im vcdPaket sehen - dies dient zu Erkundungszwecken; Frage 2 fordert ein Vorhersagemodell; Abhängig von der Variablen, die Sie als Ergebnis betrachten, kann es sich um eine logistische Regression (z. B. wenn Y = isLand), eine lineare Regression (z. B. wenn Y = Abstand) oder direkt um ein logarithmisch lineares Modell handeln, mit dem Sie Ihre kontinuierliche Messung kategorisieren können. Frage 3 ist eindeutig ein logarithmisch lineares Modell, wie von @ars vorgeschlagen.
Chl

1
@ Elpezmuerto @ars Dank der Arbeit von Laura Thompson ist Agrestis Buch auch in R erhältlich, j.mp/9fXheu :-)
chl

2
@chl: das ist ein toller Fund! Vielen Dank. @Elpezmuerto: In Agresti gibt es eine Reihe von Beispielen für Krabben - ich bin mir ziemlich sicher, dass es eine kontinuierliche Variable (Größe der Krabben?) Zusammen mit einer Farbe (Bereich) und einem Booleschen Wert (kann mich nicht erinnern) gibt. So nah an Ihrem Fall - es ist wahrscheinlich lehrreich, die Beispiele durchzulesen, die mindestens zwei Kapitel umfassen (ein Kapitel ist meiner Meinung nach die logistische Regression).
Ars

@ars Dies sind esp. Kapitel 4 und 5, mit Panzer Breite und Gewicht als kontinuierliche Variablen und die Wirbelsäule Zustand als ein anderen kategorischen (ordinal) Variable, verwendeten in Poisson und logistischen Regressions :)
CHL

2
  1. Um die Beziehung zwischen einem kontinuierlichen und einem kategorialen Faktor zu untersuchen, sollten Sie nebeneinander Box-Plots verwenden, die links kontinuierlich und unten kategorisch sind. Sind die Mittel unterschiedlich? Verwenden Sie ANOVA zur Überprüfung.

  2. Um die Beziehung zwischen kategorialen Faktoren zu untersuchen, ist es ein guter Anfang, ein Mosaikdiagramm sowie eine Kontingenztabelle zu verwenden. Sie können zuerst gruppieren und dann separate Diagramme erstellen.

  3. Um die Insassen vorherzusagen, ist die ordinale logistische Regression wahrscheinlich der beste Weg.

  4. Um isLand vorherzusagen, sollte eine (binomiale) logistische Regression ausreichen.

  5. Um die Entfernung vorherzusagen, funktioniert die OLS-Regression.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.