Ich kenne jemanden, der an einem Projekt arbeitet, bei dem Datendateien unabhängig von den Spalten oder Datentypen aufgenommen werden. Die Aufgabe besteht darin, eine Datei mit einer beliebigen Anzahl von Spalten und verschiedenen Datentypen zu erstellen und zusammenfassende Statistiken zu den numerischen Daten auszugeben.
Er ist sich jedoch nicht sicher, wie er Datentypen für bestimmte zahlenbasierte Daten dynamisch zuweisen soll. Beispielsweise:
CITY
Albuquerque
Boston
Chicago
Dies sind offensichtlich keine numerischen Daten und werden als Text gespeichert. Jedoch,
ZIP
80221
60653
25525
sind nicht eindeutig als kategorisch gekennzeichnet. Seine Software würde die Postleitzahl als numerische und zusammenfassende Ausgabestatistik dafür zuweisen, was für diese Art von Daten nicht sinnvoll ist.
Ein paar Ideen, die wir hatten, waren:
- Wenn eine Spalte nur aus Ganzzahlen besteht, kennzeichnen Sie sie als kategorisch. Das würde natürlich nicht funktionieren, aber es war eine Idee.
- Wenn eine Spalte weniger als n hat eindeutige Werte hat und numerisch ist, kennzeichnen Sie sie als kategorisch. Dies könnte näher sein, aber es könnte immer noch Probleme mit durchfallenden numerischen Daten geben.
- Pflegen Sie eine Liste allgemeiner numerischer Daten, die eigentlich kategorisch sein sollten, und vergleichen Sie die Spaltenüberschriften mit dieser Liste, um Übereinstimmungen zu erhalten. Zum Beispiel wäre alles, was "ZIP" enthält, kategorisch.
Mein Bauch sagt mir, dass es keine Möglichkeit gibt, numerische Daten genau als kategorial oder numerisch zuzuweisen, aber ich hoffte auf einen Vorschlag. Jeder Einblick, den Sie haben, wird sehr geschätzt.