Jede kleine Datenbankverarbeitung kann leicht mit Python / Perl / ... -Skripten erledigt werden, die Bibliotheken und / oder sogar Dienstprogramme aus der Sprache selbst verwenden. Wenn es jedoch um Leistung geht, tendieren die Leute dazu, nach C / C ++ / Low-Level-Sprachen zu greifen. Die Möglichkeit, den Code an die Anforderungen anzupassen, scheint diese Sprachen für BigData so attraktiv zu machen - sei es in Bezug auf Speicherverwaltung, Parallelität, Festplattenzugriff oder sogar Optimierungen auf niedriger Ebene (über Assemblykonstrukte auf C / C ++ - Ebene).
Natürlich wären solche Vorteile nicht ohne Kosten: Das Schreiben des Codes und manchmal sogar die Neuerfindung des Rads kann ziemlich teuer / lästig sein. Obwohl viele Bibliotheken verfügbar sind, neigen die Benutzer dazu, den Code selbst zu schreiben, wenn sie Leistung gewähren müssen . Was deaktiviert Leistung Behauptungen von Bibliotheken während große Datenbanken verarbeiten?
Stellen Sie sich beispielsweise ein Unternehmen vor, das Webseiten kontinuierlich crawlt und die gesammelten Daten analysiert. Für jedes Schiebefenster werden unterschiedliche Data Mining-Algorithmen für die extrahierten Daten ausgeführt. Warum sollten die Entwickler auf die Verwendung verfügbarer Bibliotheken / Frameworks verzichten (sei es für das Crawlen, die Textverarbeitung und das Data Mining)? Die Verwendung bereits implementierter Inhalte würde nicht nur die Codierung des gesamten Prozesses erleichtern, sondern auch viel Zeit sparen.
In einem einzigen Schuss :
- was macht man sich ein Schreiben des Codes Garantie der Leistung?
- Warum ist es riskant , sich auf Frameworks / Bibliotheken zu verlassen, wenn Sie eine hohe Leistung sicherstellen müssen ?