Dies mag eine zu weit gefasste Frage mit starken Meinungen sein, aber es fällt mir wirklich schwer, Informationen über das Ausführen verschiedener Algorithmen mit SQL Server Analysis Service-Data-Mining-Projekten im Vergleich zu R zu finden. Dies liegt hauptsächlich daran, dass alle Data-Science-Mitarbeiter mit mir zusammenarbeiten Ich habe keine Ahnung von SSAS, weil niemand es zu benutzen scheint. :) :)
Der Datenbank-Typ
Bevor ich anfange, lassen Sie mich das klarstellen. Ich bin ein Datenbank-Typ und kein Datenwissenschaftler. Ich arbeite mit Leuten zusammen, die Datenwissenschaftler sind, die hauptsächlich R verwenden. Ich unterstütze diese Leute bei der Erstellung großer Datenmengen, in denen sie Daten analysieren und verarbeiten können.
Mein Ziel hier ist es, ein Tool zu nutzen, das mit SQL Server geliefert wurde und das niemand wirklich nutzt, da niemand eine Ahnung zu haben scheint, wie es im Vergleich zu anderen Methoden und Tools wie R, SAS, SSPS usw. in meinem funktioniert Lager.
SSAS
Ich habe SQL Server Analysis Services (SSAS) außerhalb der Erstellung von OLAP-Cubes nie wirklich verwendet. Wenn Sie SSAS kennen, können Sie Data Mining-Aufgaben auch für Cubes oder direkt für die Daten in SQL Server ausführen.
SSAS Data Mining bietet eine Reihe von Algorithmus-Typen:
- Klassifizierungsalgorithmen sagen eine oder mehrere diskrete Variablen basierend auf den anderen Attributen im Datensatz voraus.
- Regressionsalgorithmen sagen eine oder mehrere kontinuierliche Variablen wie Gewinn oder Verlust basierend auf anderen Attributen im Datensatz voraus.
- Segmentierungsalgorithmen unterteilen Daten in Gruppen oder Cluster von Elementen mit ähnlichen Eigenschaften.
- Assoziationsalgorithmen finden Korrelationen zwischen verschiedenen Attributen in einem Datensatz. Die häufigste Anwendung dieser Art von Algorithmus ist das Erstellen von Zuordnungsregeln, die in einer Warenkorbanalyse verwendet werden können.
- Sequenzanalysealgorithmen fassen häufige Sequenzen oder Episoden in Daten zusammen, z. B. einen Webpfadfluss.
Vorhersage diskreter Spalten
Mit diesen verschiedenen Algorithmusoptionen kann ich anhand der Daten allgemeine Vorhersagen treffen, z. B. anhand einer vorhersagbaren Spalte, Fahrradkäufer, anhand einer Eingabespalte, Alter, herausfinden, wer ein Fahrrad kaufen wird. Das Histogramm zeigt, dass das Alter einer Person hilft, zu unterscheiden, ob diese Person ein Fahrrad kauft.
Vorhersage fortlaufender Spalten
Wenn der Microsoft Decision Trees-Algorithmus einen Baum basierend auf einer kontinuierlich vorhersagbaren Spalte erstellt, enthält jeder Knoten eine Regressionsformel. Eine Aufteilung erfolgt an einem Punkt der Nichtlinearität in der Regressionsformel. Betrachten Sie beispielsweise das folgende Diagramm.
Vergleich
Nach alledem scheint es mir möglich zu sein, eine Reihe von Algorithmen für die Daten auszuführen und mir in SSAS verschiedene Funktionen zur Verfügung zu stellen, um sie gegen die Daten auszuführen. Es scheint auch, dass ich meine eigenen Algorithmen in Visual Studio entwickeln und auf SSAS bereitstellen kann (wenn ich mich nicht irre).
Was fehlt mir hier in Bezug auf Sprachen und Tools von R? Ist es nur so, dass sie flexibler sind, komplexe Algorithmen im Vergleich zu SSAS usw. bereitzustellen und zu bearbeiten?