Wie Sie zu Recht bemerken, ist "Big Data" heutzutage etwas, von dem jeder sagen möchte, dass es es es gibt, was eine gewisse Lockerheit in der Definition des Begriffs mit sich bringt. Im Allgemeinen würde ich jedoch sagen, dass Sie mit Big Data zu tun haben, wenn die Skalierung so ist, dass es nicht mehr möglich ist, mit traditionelleren Technologien wie RDBMS umzugehen, zumindest ohne sie durch Big Data-Technologien wie Hadoop zu ergänzen.
Wie groß Ihre Daten tatsächlich sein müssen, damit dies der Fall ist, ist umstritten. Hier ist ein (etwas provokanter) Blog-Post , der behauptet, dass dies bei weniger als 5 TB Daten nicht wirklich der Fall ist. (Um es klar auszudrücken: "Weniger als 5 TB sind keine großen Datenmengen", aber nur "Weniger als 5 TB sind nicht groß genug, um Hadoop zu benötigen".)
Aber auch bei kleineren Datenmengen können Big-Data-Technologien wie Hadoop andere Vorteile haben: Sie eignen sich gut für Batch-Vorgänge, spielen gut mit unstrukturierten Daten (sowie Daten, deren Struktur nicht im Voraus bekannt ist oder sich ändern könnte), horizontale Skalierbarkeit ( Skalierung durch Hinzufügen weiterer Knoten, anstatt die vorhandenen Server aufzufrischen) und (als einer der Kommentare zu den oben verlinkten Postnotizen) die Möglichkeit, Ihre Datenverarbeitung in externe Datensätze zu integrieren (denken Sie an eine Map-Reduzierung, bei der der Mapper arbeitet) einen anderen Server anrufen). Andere mit Big Data verbundene Technologien, wie beispielsweise NoSql-Datenbanken, legen Wert auf schnelle Leistung und konsistente Verfügbarkeit beim Umgang mit großen Datenmengen sowie auf die Fähigkeit, halb unstrukturierte Daten zu verarbeiten und horizontal zu skalieren.
Traditionelle RDBMS haben natürlich ihre eigenen Vorteile, einschließlich ACID-Garantien (Atomicity, Consistency, Isolation, Durability) und einer besseren Leistung für bestimmte Vorgänge sowie standardisierter, ausgereifter und (für viele Benutzer) vertrauter. Selbst für unbestritten "große" Daten kann es sinnvoll sein, mindestens einen Teil Ihrer Daten in eine herkömmliche SQL-Datenbank zu laden und diese in Verbindung mit Big-Data-Technologien zu verwenden.
Eine großzügigere Definition wäre also, dass Sie über Big Data verfügen, solange es groß genug ist, dass Big Data-Technologien einen Mehrwert für Sie darstellen. Wie Sie jedoch sehen, hängt dies nicht nur von der Größe Ihrer Daten ab, sondern auch davon, wie Sie damit arbeiten möchten und welche Anforderungen Sie an Flexibilität, Konsistenz und Leistung haben. Wie Sie Ihre Daten verwenden ist mehr relevant für die Frage , als was Sie es verwenden für (zB Data Mining). Allerdings führen Anwendungen wie Data Mining und maschinelles Lernen mit größerer Wahrscheinlichkeit zu nützlichen Ergebnissen, wenn Sie über ausreichend große Datenmengen verfügen, mit denen Sie arbeiten können.