Ich schätze die anderen Antworten, aber es scheint mir, dass ein topologischer Hintergrund den Antworten eine dringend benötigte Struktur verleihen würde.
Definitionen
Beginnen wir mit der Definition der Domänen:
Eine kategoriale Variable ist eine Variable, deren Domäne Elemente enthält, zwischen denen jedoch keine Beziehung bekannt ist (daher gibt es nur Kategorien). Beispiele hängen vom Kontext ab, aber ich würde im Allgemeinen sagen, es ist schwierig, die Wochentage zu vergleichen: ist Montag vor Sonntag, wenn ja, was ist mit dem nächsten Montag? Ein vielleicht einfacheres, aber weniger gebräuchliches Beispiel sind Kleidungsstücke: Ohne einen Kontext anzugeben, der für eine Bestellung sinnvoll wäre, ist es schwierig zu sagen, ob Hosen vor Pullovern kommen oder umgekehrt.
Ordnungsvariable ist eine Variable, deren Gesamtreihenfolge über die Domäne definiert ist, dh für jeweils zwei Elemente der Domäne können wir feststellen, dass sie entweder identisch sind oder eines größer als das andere ist. Eine Likert-Skala ist ein gutes Beispiel für die Definition einer Ordinalvariablen. "etwas zustimmen" ist definitiv näher an "stark zustimmen" als an "nicht zustimmen".
Die Intervallvariable ist eine Variable, deren Domäne die Abstände zwischen Elementen definiert (eine Metrik ), sodass wir Intervalle definieren können.
Domain-Beispiele
Als die am häufigsten verwendete Menge haben natürliche und reelle Zahlen die Standardgesamtreihenfolge und -metriken. Aus diesem Grund müssen wir vorsichtig sein, wenn wir unseren Kategorien Nummern zuweisen. Wenn wir nicht darauf achten, Reihenfolge und Entfernung zu ignorieren, konvertieren wir unsere kategorialen Daten praktisch in Intervalldaten. Wenn man einen Algorithmus für maschinelles Lernen verwendet, ohne zu wissen, wie er funktioniert, besteht die Gefahr, dass solche Annahmen unfreiwillig getroffen werden, wodurch möglicherweise die eigenen Ergebnisse ungültig werden. Zum Beispiel arbeiten die gängigsten Deep-Learning-Algorithmen mit reellen Zahlen und nutzen deren Intervall- und stetige Eigenschaften. Ein weiteres Beispiel, denken Sie an 5-Punkt - Likert Skalen und wie die Analyse , die wir auf sie anwenden geht davon aus, dass der Abstand zwischen stark zustimmen und vereinbarenist das gleiche wie nicht zustimmen und weder zustimmen noch nicht zustimmen . Es ist schwer, sich für eine solche Beziehung einzusetzen.
Ein weiteres Set, mit dem wir oft arbeiten, sind Streicher . Es gibt eine Reihe von Metriken zur Ähnlichkeit von Zeichenfolgen , die sich beim Arbeiten mit Zeichenfolgen als nützlich erweisen. Diese sind jedoch nicht immer nützlich. Bei Adressen sind beispielsweise die John Smith Street und die John Smith Road in Bezug auf die String-Ähnlichkeit ziemlich ähnlich, stellen jedoch offensichtlich zwei verschiedene Entitäten dar, die kilometerweit voneinander entfernt sein könnten.
Zusammengefasste Statistiken
Ok, jetzt wollen wir sehen, wie einige zusammenfassende Statistiken dazu passen. Da die Statistik mit Zahlen arbeitet, sind ihre Funktionen über Intervalle gut definiert. Aber sehen wir uns Beispiele an, ob / wie wir sie auf kategoriale oder ordinale Daten verallgemeinern könnten:
- mode - sowohl bei der Arbeit mit kategorialen als auch mit ordinalen Daten können wir feststellen, welches Element am häufigsten verwendet wird. Also haben wir das. Dann können wir auch alle anderen Maßnahmen ableiten, die @Maddenker in ihrer Antwort aufführt. Das Konfidenzintervall von @ gung könnte ebenfalls nützlich sein.
- Median - wie @ peter-flom sagt, können Sie Ihren Median ableiten, solange Sie eine Bestellung haben.
- Mittelwert , aber auch Standardabweichung, Perzentile usw. - Sie erhalten diese nur mit Intervalldaten, da eine Abstandsmetrik erforderlich ist.
Beispiel für Datenkontextualität
Abschließend möchte ich noch einmal betonen, dass die Reihenfolge und Metriken, die Sie für Ihre Daten definieren, sehr kontextabhängig sind. Dies sollte jetzt offensichtlich sein, aber lassen Sie mich ein letztes Beispiel geben: Wenn wir mit geografischen Standorten arbeiten, haben wir viele verschiedene Möglichkeiten, um sie anzugehen:
- Wenn wir an der Entfernung zwischen ihnen interessiert sind, können wir mit ihrer Geolokalisierung arbeiten, die uns im Grunde genommen einen zweidimensionalen numerischen Raum, also ein Intervall, gibt.
- Wenn wir an ihrem Teil der Beziehung interessiert sind , können wir eine Gesamtreihenfolge definieren (z. B. eine Straße ist Teil einer Stadt, zwei Städte sind gleich, ein Kontinent enthält ein Land).
- Wenn wir daran interessiert sind, ob zwei Zeichenfolgen dieselbe Adresse repräsentieren, könnten wir mit einem gewissen Zeichenfolgenabstand arbeiten, der Rechtschreibfehler und das Vertauschen von Wortpositionen toleriert, aber sicherstellen, dass unterschiedliche Begriffe und Namen unterschieden werden. Dies ist keine einfache Sache, sondern nur, um den Fall zu klären.
- Es gibt viele andere Anwendungsfälle, denen wir alle täglich begegnen, bei denen dies alles keinen Sinn ergibt. In einigen Fällen reicht es nicht aus, die Adressen als unterschiedliche Kategorien zu behandeln, in anderen kommt es auf eine sehr intelligente Datenmodellierung und -vorverarbeitung an.