Als «bigdata» getaggte Fragen

Big Data ist der Begriff für eine Sammlung von Datensätzen, die so groß und komplex sind, dass die Verarbeitung mit vorhandenen Datenbankverwaltungstools oder herkömmlichen Datenverarbeitungsanwendungen schwierig wird. Die Herausforderungen umfassen Erfassung, Kuratierung, Speicherung, Suche, Freigabe, Übertragung, Analyse und Visualisierung.

3
Umgang mit einem regelmäßig wachsenden Funktionsumfang
Ich arbeite an einem Betrugserkennungssystem. In diesem Bereich treten regelmäßig neue Betrugsfälle auf, sodass dem Modell laufend neue Funktionen hinzugefügt werden müssen. Ich frage mich, wie ich am besten damit umgehen kann (aus Sicht des Entwicklungsprozesses). Das Hinzufügen eines neuen Features zum Feature-Vektor und das erneute Training des Klassifikators scheint …


1
Vermeiden Sie das erneute Laden von DataFrame zwischen verschiedenen Python-Kerneln
Gibt es eine Möglichkeit, eine Variable (große Tabelle / Datenrahmen) im Speicher zu behalten und für mehrere Ipython-Notizbücher freizugeben? Ich würde nach etwas suchen, das konzeptionell den persistenten Variablen von MATLAB ähnlich ist. Dort ist es möglich, eine benutzerdefinierte Funktion / Bibliothek von mehreren einzelnen Editoren (Notizbüchern) aufzurufen und diese …

3

2
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
Erkennung menschlicher Aktivitäten unter Verwendung eines Smartphone-Datensatzproblems
Ich bin neu in dieser Community und hoffe, dass meine Frage hier gut passt. Im Rahmen meines Bachelor-Studiengangs Datenanalyse habe ich mich für das Projekt zur Erkennung menschlicher Aktivitäten mithilfe von Smartphone-Datensätzen entschieden. Für mich bezieht sich dieses Thema auf maschinelles Lernen und die Unterstützung von Vektormaschinen. Ich bin mit …

1
Unterschied zwischen interpolate () und fillna () bei Pandas
Da die Interpolations- und die Fillna-Methode die gleiche Arbeit zum Füllen von Na-Werten ausführen. Was ist der grundlegende Unterschied zwischen den beiden. Welche Bedeutung haben diese beiden unterschiedlichen Methoden? Kann mir jemand Laien erklären. Ich habe bereits die offizielle Dokumentation durchgesehen und wollte den Unterschied wissen



1
Kaskadierter Fehler im Apache-Sturm
Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten stapelweise zu verarbeiten und die Storm-Ergebnisse zu verwerfen, …

3
Vergleich von Experimenten, die über verschiedene Infrastrukturen laufen
Ich entwickle einen verteilten Algorithmus. Um die Effizienz zu verbessern, hängt er sowohl von der Anzahl der Festplatten (eine pro Maschine) als auch von einer effizienten Lastausgleichsstrategie ab. Mit mehr Festplatten können wir den Zeitaufwand für E / A reduzieren. Mit einer effizienten Lastausgleichsrichtlinie können wir Aufgaben ohne großen Aufwand …

2
Filtern von Spam aus abgerufenen Daten
Ich habe einmal gehört, dass das Filtern von Spam mithilfe von Blacklists kein guter Ansatz ist, da einige Benutzer, die nach Einträgen in Ihrem Datensatz suchen, möglicherweise nach bestimmten Informationen aus den blockierten Quellen suchen. Außerdem wäre es eine Belastung, den aktuellen Status jedes blockierten Spammers kontinuierlich zu überprüfen und …

1
Kann man lineare Modelle auf „Blöcken“ des Datensatzes erstellen, wenn man sie nicht auf dem gesamten Datensatz erstellen kann?
Kann man lineare Modelle auf "Blöcken" des Datensatzes erstellen, wenn man sie nicht auf dem gesamten Datensatz erstellen kann? Insbesondere habe ich noch über 88.000 Variablen (Features) übrig und man kann ohne viel Speicher nicht viel damit anfangen. Aber verlieren Modelle bei "Blöcken" die Wechselwirkungen zwischen Blöcken oder gibt es …

2
Verstehen, wie verteiltes PCA funktioniert
Im Rahmen eines Big-Data-Analyseprojekts arbeite ich an: Ich muss PCA für einige Daten mithilfe eines Cloud-Computing-Systems durchführen. In meinem Fall verwende ich Amazon EMR für den Job und insbesondere Spark. Abgesehen von der Frage "Wie man PCA-in-Spark durchführt" möchte ich ein Verständnis dafür bekommen, wie die Dinge hinter den Kulissen …

2
Lambda-Architektur - Implementieren der Zusammenführungs- / Abfrageebene
Ich lese über Lambda-Architektur. Es ergibt Sinn. Wir haben warteschlangenbasierte Datenaufnahme. Wir haben einen In-Memory-Speicher für Daten, der sehr neu ist, und wir haben HDFS für alte Daten. Wir haben also unseren gesamten Datensatz. in unserem System. sehr gut. Das Architekturdiagramm zeigt jedoch, dass die Zusammenführungsschicht sowohl die Batch-Schicht als …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.