Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren.
Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, in denen ein nominales Merkmal keine Beobachtungen im Trainingssatz enthält, aber anschließend im Validierungsdatensatz vorhanden ist. Dies führt natürlich zu und Fehler, wenn das Modell mit (bisher) unsichtbaren Fällen dargestellt wird. Eine andere Situation, in der ich Kategorien kombinieren möchte, ist einfach, wenn es zu viele Kategorien mit wenigen Beobachtungen gibt.
Meine Fragen sind also:
- Obwohl mir klar ist, dass es am besten ist, viele nominale (und ordinale) Kategorien auf der Grundlage der früheren realen Hintergrundinformationen, die sie darstellen, zu kombinieren, gibt es systematische Methoden (
R
vorzugsweise Pakete)? - Welche Richtlinien und Vorschläge würden Sie in Bezug auf Schwellenwerte usw. machen?
- Was sind die beliebtesten Lösungen in der Literatur?
- Gibt es andere Strategien als die Kombination kleiner nominaler Kategorien zu einer neuen Kategorie "SONSTIGES"?
Wenn Sie weitere Vorschläge haben, können Sie sich gerne an uns wenden.