Das Folgende beschreibt, was ich versuche, aber es ist möglich, dass eine alternative Problembeschreibung mein Ziel beschreibt:
ich will
Teilen Sie die folgenden Zahlen in Gruppen ein, wobei die Varianzen der Zahlen innerhalb jeder Gruppe nicht zu groß sind und die Unterschiede zwischen den Durchschnittswerten der Gruppen nicht zu gering sind
Vergleichen Sie die am Ende erhaltene Verteilung mit den "perfekten" und sehen Sie, wie "anders" es ist, wenn man nicht perfekt ist.
Zielerklärung des Laien
Ich versuche, die Einkommensverteilung zu berechnen und die "Einkommensklassen" zu bestimmen, in denen sich jede Population befindet. Die Einkommensklasse soll sich basierend auf den Eingabedaten selbst anpassen.
Mein Ziel ist es, letztendlich die Differenz zwischen den Einkommensklassen zu messen oder zu berechnen. Ich gehe davon aus, dass es viele Klammern geben wird, und möchte sehen, wie weit die einzelnen Ebenen voneinander entfernt sind.
Hier ist eine Stichprobe des Stundeneinkommens für eine Stichprobe von 20 Einwohnern und eines Gesamteinkommens von 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Wie kann ich mathematische Konzepte verwenden, um Daten zu gruppieren, zu sortieren und zu analysieren, die sich wie eine Einkommensverteilung über eine bestimmte Population verhalten?
Am Ende der Berechnung möchte ich die gestufte Einkommensverteilung bestimmen, bei der eine perfekte Verteilung (so etwas) so aussehen würde
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
oder dieses:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Frage
Wie soll ich die Bevölkerungsgruppen analysieren und die Lücke so messen, dass ich weiß, wie viel benötigt wird, um sie den beiden oben aufgeführten Modellgruppen ähnlicher zu machen?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.