Angenommen, Sie haben einen Datensatz aus einer kontinuierlichen Verteilung mit der Dichte , getragen auf , dass nicht bekannt ist, aber ist ziemlich groß , so eine Kerndichte (zum Beispiel) , ziemlich genau. Für eine bestimmte Anwendung muss ich die beobachteten Daten in eine endliche Anzahl von Kategorien umwandeln, um einen neuen Datensatz mit einer impliziten Massenfunktion .
Ein einfaches Beispiel wäre , wenn Y i ≤ 1 / 2 und Z i = 1 , wenn Y i > 1 / 2 . In diesem Fall wäre die induzierte Massenfunktion
Die zwei "Abstimmungsparameter" sind hier die Anzahl der Gruppen und der ( m - 1 ) Längenvektor der Schwellenwerte λ . Bezeichne die induzierte Massenfunktion von g m , λ ( y ) .
Ich möchte ein Verfahren, das zum Beispiel antwortet: "Was ist die beste Wahl für so dass eine Erhöhung der Anzahl der Gruppen auf m + 1 (und Auswahl des optimalen λ dort) eine vernachlässigbare Verbesserung ergibt?". Ich habe das Gefühl, dass möglicherweise eine Teststatistik erstellt werden kann (möglicherweise mit dem Unterschied in der KL-Divergenz oder ähnlichem), deren Verteilung abgeleitet werden kann. Irgendwelche Ideen oder relevante Literatur?
Bearbeiten: Ich habe zeitliche Messungen einer kontinuierlichen Variablen gleichmäßig verteilt und verwende eine inhomogene Markov-Kette, um die zeitliche Abhängigkeit zu modellieren. Ehrlich gesagt sind diskrete staatliche Markov-Ketten viel einfacher zu handhaben, und das ist meine Motivation. Die beobachteten Daten sind Prozentsätze. Ich verwende derzeit eine Ad-hoc-Diskretisierung, die für mich sehr gut aussieht, aber ich denke, dies ist ein interessantes Problem, bei dem eine formale (und allgemeine) Lösung möglich ist.
Bearbeiten 2: Das Minimieren der KL-Divergenz wäre gleichbedeutend damit, die Daten überhaupt nicht zu diskretisieren, sodass diese Idee völlig ausfällt. Ich habe den Körper entsprechend bearbeitet.