Sie stellen die falsche Frage.
Anstatt zu fragen, "welcher Algorithmus", sollten Sie fragen, "welche Kategorie / welcher Cluster in Ihrer Anwendung sinnvoll ist ".
Ich bin nicht überrascht, dass die oben genannten Algorithmen nicht funktioniert haben - sie sind für sehr unterschiedliche Anwendungsfälle konzipiert. k-means funktioniert nicht mit beliebigen anderen Abständen. Verwenden Sie es nicht mit Hamming-Abstand. Es gibt einen Grund, warum es k- means heißt. Es ist nur dann sinnvoll, wenn das arithmetische Mittel aussagekräftig ist (was nicht für Binärdaten gilt).
Vielleicht möchten Sie stattdessen k-Modi ausprobieren. IIRC ist eine Variante, die eigentlich für kategoriale Daten gedacht ist, und binäre Daten sind etwas kategorial (aber Sparsity kann Sie trotzdem töten).
Aber haben Sie zuerst Duplikate entfernt , um Ihre Daten zu vereinfachen, und beispielsweise eindeutige / leere Spalten entfernt?
Vielleicht sind APRIORI oder ähnliche Ansätze auch für Ihr Problem sinnvoller.
In jedem Fall müssen Sie zuerst herausfinden, was Sie benötigen, und dann, welcher Algorithmus diese Herausforderung lösen kann. Arbeiten Sie datengesteuert , nicht indem Sie zufällige Algorithmen ausprobieren.