Ich bin einmal auf eine Art Plot für kategoriale Daten (dh Kontingenztabellen) im Internet gestoßen, die mir sehr gut gefallen hat, die ich aber nie wieder gefunden habe, und ich weiß nicht einmal, wie sie heißen. Es war im Wesentlichen wie ein Siebdiagramm, in dem die Zeilenhöhen und Spaltenbreiten relativ zu den Grenzwahrscheinlichkeiten skaliert wurden. Somit wurde jedes Kästchen auf die relative Häufigkeit skaliert, die unter Unabhängigkeit erwartet wurde. Es unterschied sich jedoch von einem Siebdiagramm darin, dass anstelle einer Kreuzschraffur in jedem Kästchen ein Punkt (wie in einem Streudiagramm) an einer Stelle aufgezeichnet wurde, die zufällig aus einer bivariaten Uniform für jede Beobachtung ausgewählt wurde. Auf diese Weise spiegelt die Dichte der Punkte wider, wie gut die beobachteten Zählungen mit den erwarteten Zählungen übereinstimmen. Das heißt, wenn die Dichte in jeder Box ähnlich wäre, ist das Nullmodell vernünftig. ) ist unter dem Nullmodell möglicherweise nicht sehr wahrscheinlich. Da Punkte anstelle von Schraffuren gezeichnet werden, besteht eine einfache und intuitive Entsprechung zwischen dem gezeichneten Element und der beobachteten Anzahl, was bei Siebzeichnungen nicht unbedingt der Fall ist (siehe unten). Darüber hinaus verleiht die zufällige Platzierung der Punkte der Handlung ein "organisches" Gefühl. Darüber hinaus könnte Farbe verwendet werden, um Felder / Zellen hervorzuheben, die stark vom Nullmodell abweichen, und eine Diagrammmatrix könnte verwendet werden, um paarweise Beziehungen zwischen vielen verschiedenen Variablen zu untersuchen, sodass die Vorteile ähnlicher Diagramme berücksichtigt werden können.
- Weiß jemand, wie diese Handlung heißt?
- Gibt es ein Paket / eine Funktion, die dies problemlos in R oder einer anderen Software (z. B. Mondrian) erledigt? Ich kann so etwas nicht in VCD finden . Natürlich könnte es von Grund auf hart codiert werden, aber das wäre ein Schmerz.
Hier ist ein einfaches Beispiel für eine Siebkurve. Beachten Sie, dass es leicht zu erkennen ist, wie sich die erwarteten Zählwerte für die verschiedenen Kategorien unter dem Nullmodell auswirken sollten. Es ist jedoch schwierig, die Schraffur mit den tatsächlichen Zahlen in Einklang zu bringen, was zu einer nicht zutreffenden Kurve führt ganz so einfach und ästhetisch scheußlich zu lesen:
B ~B
A 38 4
~A 3 19
Für das, was es wert ist, hat ein Mosaik-Plot das umgekehrte Problem: Obwohl es einfacher ist zu erkennen, welche Zellen zu viele oder zu wenige Zählungen haben (im Vergleich zum Nullmodell), ist es schwieriger, die Beziehungen zwischen den Zellen zu erkennen erwartete Anzahl wäre gewesen. Insbesondere werden die Spaltenbreiten relativ zur Grenzwahrscheinlichkeit skaliert, die Zeilenhöhen jedoch nicht. Dadurch ist es nahezu unmöglich, diese Informationen zu extrahieren.
und jetzt etwas ganz anderes...
- Weiß jemand, woher die Konvention kommt, Blau für "zu viele" und Rot für "zu wenige" zu verwenden? Das war für mich immer uninteressant. Es scheint mir, dass außergewöhnlich hohe Dichte (oder zu viele Beobachtungen) mit heiß und niedrige Dichte mit kalt einhergeht und dass (zumindest bei Bühnenbeleuchtung) Rotweine wärmen und Blauweine kühlen .
Update: Wenn ich mich richtig erinnere, war die Handlung, die ich sah, in einem PDF eines Kapitels (Einleitung oder Kapitel 1) aus einem Buch, das online als Marketing-Teaser frei verfügbar gemacht wurde. Hier ist eine grobe Version der Idee, die ich von Grund auf neu codiert habe:
Selbst mit dieser groben Version ist sie meiner Meinung nach einfacher zu lesen als die Siebdarstellung und in gewisser Weise einfacher als die Mosaikdarstellung (z. B. ist es einfacher, die Zusammenhänge zu erkennen zwischen den Zellfrequenzen würde unter Unabhängigkeit sein). Es wäre schön, eine Funktion zu haben, die: a. würde dies automatisch mit jeder Kontingenztabelle tun, b. könnte als Baustein einer Plotmatrix verwendet werden, und c. Hätte die netten Features, die mit den obigen Plots kommen (wie die standardisierte Residuenlegende auf dem Mosaikplot).
shading.points()
Siebschattierungsfunktion nicht gefällt, können Sie innerhalb des oben genannten Strucplot-Frameworks, das als Vignette in der vcd
Packung verfügbar ist, ganz einfach Ihre eigene schreiben, z. B. um das zu tun, was Sie wollen .
R
Funktion demassocplot
nahe, was Sie meinen? Wenn nicht,R
könnte ein Programmierer entweder das ändern odermosaicplot
tun, was Sie wollen.