Ist es jemals sinnvoll, kategoriale Daten als fortlaufend zu behandeln?

57

Bei der Beantwortung dieser Frage zu diskreten und fortlaufenden Daten habe ich zu Recht festgestellt, dass es selten sinnvoll ist, kategoriale Daten als fortlaufend zu behandeln.

Auf den ersten Blick scheint das selbstverständlich zu sein, aber Intuition ist oft ein schlechter Leitfaden für Statistiken, oder zumindest meiner. Jetzt frage ich mich also: Stimmt das? Oder gibt es etablierte Analysen, für die eine Transformation von kategorialen Daten in ein Kontinuum tatsächlich sinnvoll ist? Würde es einen Unterschied machen, wenn die Daten ordinal wären?

— Funkgerät
quelle

20

Diese Frage und ihre Antworten erinnern uns daran, wie grob und begrenzt diese antiquierte Unterteilung von Variablen in kategoriale-ordinale-Intervall-Verhältnisse wirklich ist. Es kann den statistisch naiven Analytiker leiten, aber für den nachdenklichen oder erfahrenen Analytiker ist es ein Hindernis, Variablen in einer Weise auszudrücken, die für die Daten und die mit ihnen zu treffenden Entscheidungen angemessen ist. Jemand, der von diesem letzteren Standpunkt aus arbeitet, kann sich frei zwischen kategorialen und "kontinuierlichen" Datendarstellungen bewegen. Für sie kann diese Frage nicht einmal aufkommen! Stattdessen sollten wir fragen: Wie hilft es?

— whuber

@whuber (+1) Zumindest scheint es schwierig, Messzuverlässigkeit und Diagnosegenauigkeit gleichzeitig zu optimieren.

— Chl

34

Ich gehe davon aus, dass eine "kategoriale" Variable tatsächlich für eine ordinale Variable steht. Andernfalls macht es wenig Sinn, es als kontinuierliche Variable zu behandeln, es sei denn, es handelt sich um eine binäre Variable (codiert mit 0/1), auf die @Rob zeigt. Dann würde ich sagen , dass das Problem nicht so sehr die Art und Weise wir die Variable behandeln, obwohl viele Modelle für kategorische Datenanalyse wurden bisher entwickelt worden - siehe zum Beispiel die Analyse der bestellten kategorische Daten: Eine Übersicht und eine Übersicht über den letzten Entwicklungen von Liu und Agresti-, als die zugrunde liegende Messskala wir annehmen. Meine Antwort wird sich auf diesen zweiten Punkt konzentrieren, obwohl ich zunächst kurz auf die Zuordnung numerischer Bewertungen zu variablen Kategorien oder Ebenen eingehen werde.

Wenn Sie eine einfache numerische Umcodierung einer Ordinalvariablen verwenden, nehmen Sie an, dass die Variable Intervalleigenschaften hat (im Sinne der von Stevens, 1946, angegebenen Klassifikation). Aus messtheoretischer Sicht (in der Psychologie) mag dies oft eine zu starke Annahme sein, aber für das Grundstudium (dh wenn ein einzelner Punkt verwendet wird, um seine Meinung zu einer täglichen Aktivität mit klarem Wortlaut auszudrücken) sollten alle monotonen Scores vergleichbare Ergebnisse liefern . Cochran (1954) hat darauf bereits hingewiesen

Jeder Satz von Bewertungen ergibt einen gültigen Test, vorausgesetzt, dass sie ohne Rücksprache mit den Ergebnissen des Experiments erstellt wurden. Wenn die Anzahl der Bewertungen schlecht ist und eine der geordneten Klassifizierung zugrunde liegende numerische Skala dadurch stark verzerrt wird, ist der Test nicht empfindlich. Die Bewertungen sollten daher den bestmöglichen Einblick in die Art und Weise bieten, in der die Klassifizierung erstellt und verwendet wurde. (S. 436)

(Vielen Dank an @whuber, der mich in einem seiner Kommentare daran erinnert hat, weshalb ich Agrestis Buch, aus dem dieses Zitat stammt, erneut gelesen habe.)

$M^2$ $M^2=(n-1)r^2$

Sie können sich auch dafür entscheiden, Ihre Variable in einem unregelmäßigen Bereich neu zu codieren oder einige ihrer Ebenen zu aggregieren. In diesem Fall kann jedoch ein starkes Ungleichgewicht zwischen den neu codierten Kategorien statistische Tests verzerren, z. B. den oben genannten Trendtest. @Jeromy hat bereits eine gute Alternative für die Zuordnung des Abstands zwischen Kategorien vorgeschlagen, nämlich die optimale Skalierung.

Lassen Sie uns nun den zweiten Punkt diskutieren, den ich gemacht habe, nämlich den des zugrunde liegenden Messmodells. Ich zögere immer, das "Psychometrics" -Tag hinzuzufügen, wenn ich diese Art von Frage sehe, da die Konstruktion und Analyse von Messskalen unter die psychometrische Theorie fällt (Nunnally und Bernstein, 1994, für einen guten Überblick). Ich werde nicht auf alle Modelle eingehen, die unter der Item-Response-Theorie stehen , und ich verweise den interessierten Leser freundlich auf das Tutorial von I. Partchev, Eine visuelle Anleitung zur Item-Response-Theorie, für eine vorsichtige Einführung in das IRT und zu den am Ende aufgeführten Referenzen (5-8) für mögliche IRT-Taxonomien. Kurz gesagt: Anstatt willkürliche Abstände zwischen variablen Kategorien zuzuweisen, nehmen Sie eine latente Skala an und schätzen deren Position auf diesem Kontinuum zusammen mit den Fähigkeiten oder der Haftung des Einzelnen. Ein einfaches Beispiel ist viel mathematische Notation wert. Betrachten wir daher den folgenden Punkt (der aus dem gesundheitsbezogenen Fragebogen zur Lebensqualität von EORTC QLQ-C30 stammt ):

Hast du dir Sorgen gemacht?

die auf einer Vier-Punkte-Skala von "Überhaupt nicht" bis "Sehr viel" codiert ist. Die Rohwerte werden durch Zuweisen eines Wertes von 1 bis 4 berechnet. Die Werte für Elemente derselben Skala können dann zu einem sogenannten Skalenwert addiert werden, der den Rang eines Benutzers auf dem zugrunde liegenden Konstrukt (hier eine Komponente der psychischen Gesundheit) angibt ). Solche summierten Skalenwerte sind sehr praktisch, da sie für den Arzt oder die Krankenschwester leicht zu bewerten sind, aber sie sind nichts weiter als eine diskrete (geordnete) Skala.

Wir können auch davon ausgehen, dass die Wahrscheinlichkeit, eine bestimmte Antwortkategorie zu unterstützen, einer Art logistischem Modell entspricht, wie in I. Partchevs oben beschriebenem Tutorial beschrieben. Grundsätzlich geht es um eine Art Schwellenwertmodell (das zu einer äquivalenten Formulierung in Form von proportionalen oder kumulativen Quotenmodellen führt), und wir modellieren die Wahrscheinlichkeit, in einer Antwortkategorie zu sein, eher als die vorherige oder die Wahrscheinlichkeit, über a zu punkten bestimmte Kategorie, abhängig von der Position der Probanden auf dem latenten Merkmal. Darüber hinaus können wir festlegen, dass die Antwortkategorien auf der latenten Skala gleich verteilt sind (dies ist das Bewertungsskalenmodell) - wie wir es tun, indem wir regelmäßig verteilte numerische Bewertungen zuweisen - oder nicht (dies ist das Teilkreditmodell). .

Es ist klar, dass wir der klassischen Testtheorie, bei der Ordinalvariablen als numerische Variablen behandelt werden, nicht viel hinzufügen. Wir führen jedoch ein Wahrscheinlichkeitsmodell ein, bei dem wir eine kontinuierliche Skala (mit Intervalleigenschaften) annehmen und bei dem bestimmte Messfehler berücksichtigt werden können, und wir können diese Fakultätsbewertungen in jedes Regressionsmodell einbinden.

Verweise

SS Stevens. Zur Theorie der Maßstäbe. Science , 103 : 677 & ndash; 680, 1946.
$\chi^2$
J Nunnally und ich Bernstein. Psychometrische Theorie . McGraw-Hill, 1994
Alan Agresti. Kategoriale Datenanalyse . Wiley, 1990.
CR Rao und S Sinharay, Herausgeber. Handbuch der Statistik, Bd. 26: Psychometrie . Elsevier Science BV, Niederlande, 2007.
Ein Boomsma, MAJ van Duijn und TAB Snijders. Aufsätze zur Item Response Theorie . Springer, 2001.
D Thissen und L Steinberg. Eine Taxonomie von Item-Response-Modellen. Psychometrika , 51 (4) : 567–577, 1986.
P Mair und R Hatzinger. Erweiterte Rasch Modellierung: Das ERM - Paket für die Anwendung von IRT - Modelle in R . Journal of Statistical Software , 20 (9) , 2007.

— chl
quelle

19

Wenn es nur zwei Kategorien gibt, ist es sinnvoll, sie in (0,1) umzuwandeln. Tatsächlich wird dies häufig durchgeführt, wenn die resultierende Dummy-Variable in Regressionsmodellen verwendet wird.

Wenn es mehr als zwei Kategorien gibt, dann halte ich es nur für sinnvoll, wenn die Daten ordinal sind, und dann nur unter ganz bestimmten Umständen. Wenn ich zum Beispiel eine Regression durchführe und eine nichtparametrische nichtlineare Funktion an die ordinal-cum-numerische Variable anpasse, finde ich das in Ordnung. Wenn ich jedoch eine lineare Regression verwende, gehe ich sehr stark von der relativen Differenz zwischen aufeinanderfolgenden Werten der Ordinalvariablen aus und zögere normalerweise, dies zu tun.

— Rob Hyndman
quelle

1

"Dann mache ich sehr starke Annahmen über den relativen Unterschied zwischen aufeinanderfolgenden Werten der Ordinalvariablen." Ich denke, das ist wirklich der entscheidende Punkt. dh wie stark kann man argumentieren, dass der Unterschied zwischen Gruppe 1 und 2 mit dem zwischen 2 und 3 vergleichbar ist?

— Freya Harrison

Ich denke, Sie sollten einige Annahmen darüber treffen, wie die kontinuierliche Variable verteilt werden soll, und dann versuchen, dieses "Psudohistogramm" für jede kategoriale Variablenhäufigkeit anzupassen (ich meine, Sie sollten Behälterbreiten finden, die es in ein angepasstes Histogramm umwandeln). Trotzdem bin ich kein Experte auf diesem Gebiet, es ist eine schnelle und schmutzige Idee.

Die Neufassung von binären Kategorien als {0,1} ist sinnvoll, aber die Umwandlung in ein kontinuierliches [0,1] -Intervall erscheint wie ein kleiner Sprung. Im weiteren Sinne bin ich völlig dagegen, Ordnungszahlen gleichermaßen zu gewichten, es sei denn, das Modell liefert schlagkräftige Argumente.

— Walkytalky

18

Es ist gängige Praxis, geordnete kategoriale Variablen mit vielen Kategorien als kontinuierlich zu behandeln. Beispiele hierfür:

Anzahl der korrekten Elemente bei einem Test mit 100 Elementen
Eine summierte psychologische Skala (dh der Mittelwert aus jeweils 10 Elementen auf einer Fünf-Punkte-Skala)

Und mit "als stetig behandeln" meine ich, die Variable in ein Modell aufzunehmen, das eine stetige Zufallsvariable annimmt (z. B. als abhängige Variable in einer linearen Regression). Ich nehme an, es geht darum, wie viele Skalenpunkte erforderlich sind, damit dies eine vernünftige vereinfachende Annahme ist.

Ein paar andere Gedanken:

Polychrone Korrelationen versuchen, die Beziehung zwischen zwei Ordinalvariablen in Bezug auf angenommene latente kontinuierliche Variablen zu modellieren.
Mit der optimalen Skalierung können Sie Modelle entwickeln, bei denen die Skalierung einer kategorialen Variablen datengesteuert unter Berücksichtigung der von Ihnen auferlegten Skalierungsbeschränkungen (z. B. Ordinalität) erfolgt. Für eine gute Einführung siehe De Leeuw und Mair (2009)

Verweise

De Leeuw, J. & Mair, P. (2009). Gifi-Methoden zur optimalen Skalierung in R: Das Paket homals. Journal of Statistical Software, Erscheinungstermin 1-30. PDF

— Jeromy Anglim
quelle

7

Ein sehr einfaches, oft übersehenes Beispiel, das in der Erfahrung vieler Leser liegen sollte, betrifft die Noten oder Noten, die für akademische Arbeiten vergeben werden. Oft handelt es sich bei Noten für einzelne Zuordnungen im Wesentlichen um urteilsbasierte Ordnungsmaße, auch wenn sie konventionell als (etwa) Prozentzeichen oder Noten auf einer Skala mit maximal 5 (möglicherweise auch mit Dezimalstellen) angegeben werden. Das heißt, ein Lehrer kann einen Aufsatz, eine Dissertation, eine Diplomarbeit oder eine Arbeit lesen und entscheiden, dass er 42% oder 4 oder was auch immer verdient. Selbst wenn die Noten auf einem detaillierten Bewertungsschema basieren, befindet sich die Skala in einiger Entfernung von einer Intervall- oder Verhältnismessskala.

Aber dann sind viele Institute der Ansicht, dass es durchaus sinnvoll ist, wenn Sie über genügend Noten oder Noten verfügen (Notendurchschnitt usw.), diese zu mitteln und sogar detaillierter zu analysieren. Irgendwann verwandeln sich die Ordnungszahlen in eine Summenskala, die so behandelt wird, als ob sie kontinuierlich wären.

Kenner der Ironie werden bemerken, dass statistische Kurse in vielen Abteilungen oder Schulen oft lehren, dass dies allenfalls zweifelhaft und im schlimmsten Fall falsch ist, während es als universitätsweites Verfahren implementiert wird.

— Nick Cox
quelle

5

Bei einer Analyse der Rangfolge nach Häufigkeit wie bei einem Pareto-Diagramm und den zugehörigen Werten (z. B. wie viele Kategorien machen die oberen 80% der Produktfehler aus)

— AdamV
quelle

5

Wichtiger Punkt, und er kann erweitert werden: Viele Modelle für Ordnungsdaten basieren auf der Idee, dass nicht die Ordnungsdaten, sondern ihre kumulativen Wahrscheinlichkeiten modelliert werden können.

— Nick Cox

4

Ich werde argumentieren, dass es manchmal sinnvoll sein kann, eine wirklich kategoriale, nicht ordinale Variable als stetig zu behandeln.

Wenn Sie Entscheidungsbäume auf der Grundlage großer Datenmengen erstellen, kann die Konvertierung von kategorialen Variablen in Dummy-Variablen in Bezug auf Verarbeitungsleistung und Speicher teuer sein. Darüber hinaus können einige Modelle (z. B. randomForestin R) keine kategorialen Variablen mit vielen Ebenen verarbeiten.

In diesen Fällen sollte ein baumbasiertes Modell in der Lage sein, extrem wichtige Kategorien zu identifizieren, AUCH WENN sie als kontinuierliche Variable codiert sind. Ein ausgedachtes Beispiel:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y ist eine kontinuierliche Variable, a ist eine kontinuierliche Variable und b ist eine kategoriale Variable. In dat1b wird jedoch als stetig behandelt.

Wenn wir einen Entscheidungsbaum zu diesen beiden Datensätzen hinzufügen, stellen wir fest, dass dieser dat1etwas schlechter ist als dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Wenn Sie sich die beiden Modelle ansehen, werden Sie feststellen, dass sie sich sehr ähnlich sind, Modell 1 jedoch die Bedeutung von b == 42 verfehlt:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Modell1 wird jedoch in etwa 1/10 der Zeit von Modell2 ausgeführt:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066

Sie können die Parameter des Problems natürlich optimieren, um Situationen zu finden, in denen die Leistung dat2weit dat1oder dat1leicht übertroffen wird dat2.

Ich befürworte nicht, kategoriale Variablen im Allgemeinen als stetig zu behandeln, aber ich habe Situationen festgestellt, in denen sich die Zeit, die für die Anpassung meiner Modelle benötigt wird, erheblich verkürzt hat, ohne die Genauigkeit der Vorhersage zu beeinträchtigen.

— Zach
quelle

3

Eine sehr schöne Zusammenfassung zu diesem Thema finden Sie hier:

mijkerhemtulla.socsci.uva.nl PDF

"Wann können kategoriale Variablen als kontinuierlich behandelt werden? Ein Vergleich robuster kontinuierlicher und kategorialer SEM-Schätzmethoden unter suboptimalen Bedingungen."

Mijke Rhemtulla, Patricia É. Brosseau-Liard und Victoria Savalei

Sie untersuchen Methoden im Wert von etwa 60 Seiten und geben Aufschluss darüber, wann dies sinnvoll ist, welche Herangehensweise erforderlich ist und welche Stärken und Schwächen die einzelnen Herangehensweisen für Ihre spezifische Situation haben. Sie decken nicht alle ab (wie ich lerne, scheint es eine unbegrenzte Menge zu geben), aber diejenigen, die sie abdecken, decken sie gut ab.

— Taal
quelle

2

In einem anderen Fall ist es sinnvoll, Daten aus fortlaufenden Daten abzutasten (z. B. über einen Analog-Digital-Wandler). Bei älteren Instrumenten sind die ADCs oft 10-Bit-Daten, die nominell 1024 Ordnungsdaten ergeben, können jedoch für die meisten Zwecke als real behandelt werden (obwohl es einige Artefakte für Werte nahe dem unteren Ende der Skala geben wird). Heutzutage sind ADCs in der Regel 16 oder 24 Bit. Wenn Sie 65536 oder 16777216 "Kategorien" sprechen, haben Sie wirklich keine Probleme damit, die Daten als fortlaufend zu behandeln.

— Kieran O'Neill
quelle

Ich stimme Ihrem Fazit sehr zu, aber wahrscheinlich waren solche Daten anfangs nie ordinär, sondern nur diskretisiert. Hier sind miese Behandlungen des Nominal-Ordinal-Intervall-Verhältnisses schuld, die oft nicht darauf hinweisen, dass Ordinal diskret impliziert, aber nicht umgekehrt. Eine Zählung ist eine Ordnungszahl, aber auch ein Intervall und ein Verhältnis.

— Nick Cox

@ Nick Ordinal impliziert diskret? Nicht unbedingt. Kontinuierliche Maßnahmen können ordinal sein. Zum Beispiel sind physiologische Variablen wie APS oder Herzfrequenz kontinuierlich, aber als Maß für psychologische Variablen wie Angst oder Erregung sind sie nur ordinal. Der Begriff Ordinale vs. Intervall bezieht sich wirklich auf die Linearität der Funktion, die das Maß mit dem in Beziehung setzt, was es messen soll.

— Ray Koopman

Das ist eine interessante Bemerkung, aber wenn Sie erst einmal in diesem Gebiet angekommen sind, verstehe ich nicht, wie Sie die Herzfrequenz überhaupt klassifizieren können, ohne unabhängige Beweise dafür, was Angst wirklich ist, und letztendlich sind die meisten Variablen, die als Proxies angesehen werden, nicht klassifizierbar. Würden Sie es vollständig ablehnen, Methoden für Intervall- oder Verhältnisdaten zu verwenden, wenn Sie die Messskala als einzige Ordnungszahl betrachten? Ich glaube nicht, dass sich die Daten aufgrund Ihrer Absicht, mit ihnen umzugehen, anders verhalten. Das ist der Kern des Problems für mich.

— Nick Cox

1

@Nick Die Frage ist, ob die Funktion, die den gemessenen Wert mit dem "wahren" Wert in Beziehung setzt, hinreichend nahe an der Linearität liegt, so dass eine Behandlung als solche nicht zu falschen inhaltlichen Schlussfolgerungen führt, oder ob sie nur als monoton behandelt werden muss. Normalerweise gibt es nur wenige oder keine genauen Daten, auf die sich die Entscheidung stützen kann. Es wird fast immer ein Urteilsspruch sein, über den informierte intelligente Menschen möglicherweise zustimmen müssen, nicht zuzustimmen.

— Ray Koopman

1

Ich denke, der übliche Schwerpunkt bei der Diskussion von Maßstäben in der Statistik liegt auf den mathematischen Eigenschaften von Variablen und den jeweils zulässigen mathematischen Operationen. Das ist umstritten genug. Die wissenschaftliche Frage, ob etwas das misst, was eigentlich sein soll, ist für mich von entscheidender Bedeutung, aber ich sehe einen anderen Diskussionsbereich.

— Nick Cox