Ich würde mich sehr über Ihren Rat zu folgendem Problem freuen:
Ich habe einen großen fortlaufenden Datensatz mit vielen Nullen (~ 95%) und muss den besten Weg finden, um zu testen, ob bestimmte Teilmengen davon "interessant" sind, dh nicht aus derselben Verteilung wie zu stammen scheinen der Rest. Die Nullinflation ergibt sich aus der Tatsache, dass jeder Datenpunkt auf einer Zählmessung mit echten und Abtastnullen basiert. Das Ergebnis ist jedoch kontinuierlich, da einige andere durch die Zählung gewichtete Parameter berücksichtigt werden (und wenn die Zählung Null ist, das Ergebnis ist auch Null).
Was wäre der beste Weg, dies zu tun? Ich habe das Gefühl, dass Wilcoxon- und sogar Brute-Force-Permutationstests unzureichend sind, da sie durch diese Nullen verzerrt werden. Wenn Sie sich auf Messungen ungleich Null konzentrieren, werden auch echte Nullen entfernt, die äußerst wichtig sind. Null-Inflations-Modelle für Zähldaten sind gut entwickelt, aber für meinen Fall ungeeignet.
Ich habe überlegt, eine Tweedie-Verteilung an die Daten anzupassen und dann ein glm auf response = f (subset_label) anzupassen. Theoretisch scheint dies machbar zu sein, aber ich frage mich, ob (a) dies ein Overkill ist und (b) implizit immer noch annehmen würde, dass alle Nullen Abtastnullen sind, dh (bestenfalls) auf die gleiche Weise wie eine Permutation voreingenommen wären?
Intuitiv klingt es so, als hätte man eine Art hierarchisches Design, das eine Binomialstatistik basierend auf dem Anteil der Nullen und beispielsweise eine Wilcoxon-Statistik kombiniert, die auf Nicht-Null-Werten (oder besser noch Nicht-Null-Werten, die mit einem Bruchteil von Nullen ergänzt werden) berechnet wird Nullen basierend auf einigen früheren). Klingt nach einem Bayesianischen Netzwerk ...
Hoffentlich bin ich nicht der erste, der dieses Problem hat. Ich wäre Ihnen sehr dankbar, wenn Sie mich auf geeignete vorhandene Techniken hinweisen könnten ...
Danke vielmals!