Zunächst einige Einschränkungen
Ich bin mir nicht sicher, warum Sie Ihr bevorzugtes Programmier- (Unter-) Paradigma *, die induktive Logikprogrammierung (ILP) , nicht verwenden können oder was Sie zu klassifizieren versuchen. Mehr Details zu geben würde wahrscheinlich zu einer viel besseren Antwort führen; zumal es etwas ungewöhnlich ist, sich der Auswahl von Klassifizierungsalgorithmen auf der Grundlage des Programmierparadigmas zu nähern, mit dem sie verbunden sind. Wenn Ihr Beispiel aus der realen Welt vertraulich ist, erstellen Sie einfach ein fiktives, aber analoges Beispiel.
Big Data-Klassifizierung ohne ILP
Nachdem wir ILP ausgeschlossen haben, haben wir 4 weitere logische Programmierparadigmen in unserer Überlegung:
- Abduktiv
- Antwortsatz
- Zwang
- Funktionell
Zusätzlich zu den Dutzenden von Paradigmen und Subparadigmen außerhalb der Logikprogrammierung.
Innerhalb der funktionalen Logikprogrammierung gibt es beispielsweise Erweiterungen von ILP, die als induktive funktionale Logikprogrammierung bezeichnet werden und auf der Inversionsverengung (dh der Inversion des Verengungsmechanismus) basieren. Dieser Ansatz überwindet mehrere Einschränkungen der ILP und ist ( zumindest einigen Wissenschaftlern zufolge ) für die Anwendung in Bezug auf die Repräsentation ebenso geeignet und hat den Vorteil, dass Probleme auf natürlichere Weise ausgedrückt werden können.
Ohne mehr über die Besonderheiten Ihrer Datenbank und die Hindernisse bei der Verwendung von ILP zu wissen, kann ich nicht wissen, ob dies Ihr Problem löst oder unter denselben Problemen leidet. Als solches werde ich auch einen völlig anderen Ansatz verwerfen.
ILP steht im Gegensatz zu "klassischen" oder "aussagekräftigen" Ansätzen für Data Mining . Diese Ansätze umfassen das Fleisch und die Knochen des maschinellen Lernens wie Entscheidungsbäume, neuronale Netze, Regression, Absacken und andere statistische Methoden. Anstatt diese Ansätze aufgrund der Größe Ihrer Daten aufzugeben, können Sie sich den Reihen vieler Data Scientists, Big Data-Ingenieure und Statistiker anschließen, die High Performance Computing (HPC) verwenden, um diese Methoden mit massiven Datenmengen anzuwenden (es gibt sie) Sie können auch Stichproben und andere statistische Techniken verwenden, um die Rechenressourcen und die Zeit zu reduzieren, die für die Analyse der Big Data in Ihrer relationalen Datenbank erforderlich sind.
HPC umfasst Dinge wie die Verwendung mehrerer CPU-Kerne, die Skalierung Ihrer Analyse durch die elastische Verwendung von Servern mit hohem Speicher und einer großen Anzahl schneller CPU-Kerne, die Verwendung von Hochleistungs-Data-Warehouse-Appliances, die Verwendung von Clustern oder anderen Formen des parallelen Rechnens usw. I ' Ich bin mir nicht sicher, mit welcher Sprache oder Statistiksuite Sie Ihre Daten analysieren, aber als Beispiel listet diese CRAN-Aufgabenansicht viele HPC-Ressourcen für die R-Sprache auf, mit denen Sie einen Aussagenalgorithmus skalieren können.