Eine Übersicht über Data Mining-Softwaretools


15

Obwohl ich als Ingenieur ausgebildet wurde, interessiere ich mich immer mehr für Data Mining. Im Moment versuche ich, das Feld weiter zu untersuchen. Insbesondere möchte ich die verschiedenen Kategorien von Softwaretools verstehen, die existieren und welche Tools in jeder Kategorie bemerkenswert sind und warum. (Beachten Sie, dass ich nicht die "besten" Tools genannt habe, sondern nur die bemerkenswerten, damit es nicht zu einem Flammenkrieg kommt.) Beachten Sie insbesondere die Tools, die Open Source und frei verfügbar sind Ich interessiere mich nur für Open Source und Free.


1
Ich rate dazu, ein Community-Wiki zu sein.
Tal Galili

klingt wie eine Hausaufgabe Frage
Neil McGuigan

Sicher, jetzt konvertiert.

@el Chef - Es ist eine sehr breite und allgemeine Frage ... aber ich fürchte, es ist keine Hausaufgabe.
John Berryman

Antworten:


7

Dies ist wahrscheinlich die umfassendste Liste, die Sie finden werden: mloss.org


Der Schwerpunkt liegt jedoch auf maschinellem Lernen, das ebenso wie AI als verwandtes Gebiet des Data-Mining angesehen werden kann. Obwohl es allgemein synonym verwendet wird, ist "Vorhersage" eine der wichtigsten Herausforderungen beim Data Mining. Beim Data Mining geht es jedoch um mehr als "Lernen".
Anony-Mousse - Monica

7

Schau es dir an

  • Weka (Java, stark in der Klassifizierung)
  • Orange (Python-Scripting, meistens Klassifizierung)
  • GNU R (R-Sprache, etwas vektortabellenorientiert, siehe Taskview Maschinelles Lernen und Rassel- Benutzeroberfläche)
  • ELKI (Java, stark auf Clustering und Ausreißererkennung, Indexstrukturunterstützung für Beschleunigungen, Algorithmusliste )
  • Mahout (Java, gehört zu Hadoop, wenn Sie einen Cluster und große Datenmengen haben)

und das UCI Machine Learning Repository für Datensätze.


1
Sie könnten Red-R zur Liste hinzufügen (eine Art Klon von Orange in R): red-r.org
Amro

Ich habe R heruntergeladen und spiele jetzt damit.
John Berryman

@ Amro Danke! Es ist jedoch nicht auf der Mac-Plattform verfügbar, es sei denn, ich irre mich?
Chl

Ich bin kein Mac-Benutzer, aber ich denke, der Linux-Build könnte für Sie funktionieren (Sie müssen alle Python-Abhängigkeiten manuell installieren): red-r.org/forum/topic.php?id=22#post-76
Amro

@ Amro Ich werde es versuchen; In der Vergangenheit habe ich RAnalyticFlow ( j.mp/bYF8xs ) getestet, mich aber nicht davon überzeugt: Ich bin im Grunde ein CLI-Benutzer :-)
chl


3

Schauen Sie sich KNIME an .

Sehr leicht zu erlernen. Mit viel Spielraum für weitere Fortschritte. Passt gut zu Weka und R.




2

Es gibt ELKI , ein Open-Source-Universitätsprojekt, das etwas mit WEKA vergleichbar ist, aber in Bezug auf Clustering und Ausreißererkennung viel stärker ist. WEKA ist eigentlich kein eigentliches Data-Mining, sondern eine Software für maschinelles Lernen.


1

Es gibt diesen Red-R, der eine schöne GUI und eine visuelle Programmierschnittstelle hat. Es verwendet R, um die verschiedenen Datenanalysen durchzuführen.



0

SQL Server Data Mining (SSDM) wurde schon lange nicht mehr aktualisiert, ist jedoch immer noch recht wettbewerbsfähig, wenn Sie große relationale Datenbanken und Cubes abbauen. Ich arbeite mich langsam, aber systematisch durch Tests so vieler Mining-Tools wie möglich. Die Windows-Oberfläche von SQL Server ist die produktivste und stabilste, die ich bisher gefunden habe (insbesondere bei Unternehmensdatenbanken, von denen einige überraschend sind) schlampige Schnittstellen) trotz seines Alters. Ich würde eine moderne Windows Presentation Foundation (WPF) -Schnittstelle bevorzugen, aber dies ist die nächstbeste Sache.

Ich habe eine ganze Reihe detaillierter Amateur-Tutorials mit dem Titel Eine waghalsige Treppe zu SQL Server Data Mining geschrieben , als ich versuchte, einige grundlegende Mining-Kenntnisse zu erwerben. Trotz meiner Unerfahrenheit sind sie immer noch hilfreich, um einige der "Fallstricke" im Voraus zu identifizieren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.