Data Mining wird entweder als beschreibend oder als vorhersagend eingestuft. Deskriptives Data Mining dient zum Durchsuchen umfangreicher Datensätze und zum Ermitteln der Positionen unerwarteter Strukturen oder Beziehungen, Muster, Trends, Cluster und Ausreißer in den Daten. Andererseits besteht Predictive darin, Modelle und Verfahren für Regressions-, Klassifizierungs-, Mustererkennungs- oder maschinelle Lernaufgaben zu erstellen und die Vorhersagegenauigkeit dieser Modelle und Verfahren bei Anwendung auf neue Daten zu bewerten.
Der zur Suche nach Mustern oder Strukturen in hochdimensionalen Daten verwendete Mechanismus kann manuell oder automatisiert sein. Bei der Suche muss möglicherweise ein Datenbankverwaltungssystem interaktiv abgefragt werden, oder es muss eine Visualisierungssoftware verwendet werden, um Anomalien in den Daten zu erkennen. In Bezug auf maschinelles Lernen wird deskriptives Data Mining als unbeaufsichtigtes Lernen bezeichnet, wohingegen prädiktives Data Mining als überwachtes Lernen bezeichnet wird.
Die meisten im Data Mining verwendeten Methoden beziehen sich auf Methoden, die im Bereich Statistik und maschinelles Lernen entwickelt wurden. Zu den wichtigsten Methoden zählen die allgemeinen Themen Regression, Klassifikation, Clustering und Visualisierung. Aufgrund der enormen Größe der Datensätze konzentrieren sich viele Anwendungen des Data Mining auf Techniken zur Reduzierung der Dimensionalität (z. B. Variablenauswahl) und Situationen, in denen der Verdacht besteht, dass hochdimensionale Daten auf niederdimensionalen Hyperebenen liegen. In jüngster Zeit wurde die Aufmerksamkeit auf Verfahren zum Identifizieren von hochdimensionalen Daten gelenkt, die auf nichtlinearen Oberflächen oder Verteilern liegen.
Es gibt auch Situationen im Data Mining, in denen statistische Inferenz - im klassischen Sinne - keine Bedeutung oder zweifelhafte Gültigkeit hat: Erstere tritt auf, wenn die gesamte Population nach Antworten suchen muss, und letztere, wenn ein Datensatz a ist "Convenience" -Stichprobe, anstatt eine Zufallsstichprobe aus einer großen Population zu sein. Wenn Daten im Laufe der Zeit gesammelt werden (z. B. Einzelhandelsgeschäfte, Börsentransaktionen, Patientenakten, Wetteraufzeichnungen), ist eine Stichprobenerfassung möglicherweise auch nicht sinnvoll. Die zeitliche Reihenfolge der Beobachtungen ist entscheidend, um das Phänomen, das die Daten erzeugt, zu verstehen, und um die Beobachtungen als unabhängig zu behandeln, wenn sie in hohem Maße korrelieren, was zu verzerrten Ergebnissen führt.
Die zentralen Komponenten des Data Mining sind - neben statistischen Theorien und Methoden - die Berechnung und Recheneffizienz, die automatische Datenverarbeitung, dynamische und interaktive Datenvisualisierungstechniken sowie die Entwicklung von Algorithmen.
Eines der wichtigsten Probleme beim Data Mining ist das Rechenproblem der Skalierbarkeit . Algorithmen, die für die Berechnung standardmäßiger explorativer und bestätigender statistischer Methoden entwickelt wurden, sollten bei Anwendung auf kleine und mittlere Datensätze schnell und rechnerisch effizient sein. Es hat sich jedoch gezeigt, dass die meisten dieser Algorithmen nicht der Herausforderung gewachsen sind, mit riesigen Datenmengen umzugehen. Mit dem Anwachsen von Datensätzen zeigen viele vorhandene Algorithmen die Tendenz, sich dramatisch zu verlangsamen (oder sogar anzuhalten).