Als «bigdata» getaggte Fragen

Big Data ist der Begriff für eine Sammlung von Datensätzen, die so groß und komplex sind, dass die Verarbeitung mit vorhandenen Datenbankverwaltungstools oder herkömmlichen Datenverarbeitungsanwendungen schwierig wird. Die Herausforderungen umfassen Erfassung, Kuratierung, Speicherung, Suche, Freigabe, Übertragung, Analyse und Visualisierung.


4
Big Data-Fallstudie oder Anwendungsbeispiel
Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten? Was war das …


8
Ist Python für Big Data geeignet?
Ich habe in diesem Beitrag gelesen: Ist die R-Sprache für Big Data geeignet, die Big Data ausmacht 5TB, und obwohl sie gute Informationen über die Machbarkeit der Arbeit mit dieser Art von Daten Rliefert, enthält sie nur sehr wenige Informationen über Python. Ich habe mich gefragt, ob ich Pythonmit so …
13 bigdata  python 

7
Was ist ein "alter Name" eines Datenwissenschaftlers?
Begriffe wie "Data Science" und "Data Scientist" werden heutzutage zunehmend verwendet. Viele Unternehmen stellen Datenwissenschaftler ein. Aber ich denke nicht, dass es ein völlig neuer Job ist. Es gab Daten aus der Vergangenheit und jemand musste sich mit Daten befassen. Ich denke, der Begriff "Data Scientist" wird populärer, weil er …
12 bigdata 

2
Preference Matching Algorithmus
An diesem Nebenprojekt arbeite ich, um eine Lösung für das folgende Problem zu finden. Ich habe zwei Gruppen von Menschen (Kunden). Die Gruppe Abeabsichtigt zu kaufen und die Gruppe Bbeabsichtigt, ein bestimmtes Produkt zu verkaufen X. Das Produkt weist eine Reihe von Attributen auf x_i, und mein Ziel ist es, …

2
Kompromisse zwischen Storm und Hadoop (MapReduce)
Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein Stapelverarbeitungssystem und Storm ein Echtzeitverarbeitungssystem. Ich habe ein bisschen mit Hadoop …


1
Wie viele LSTM-Zellen soll ich verwenden?
Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Wird FPGrowth im häufigen Pattern Mining immer noch als „State of the Art“ angesehen?
Soweit ich die Entwicklung von Algorithmen zur Lösung des FPM-Problems (Frequent Pattern Mining) kenne, gibt es auf dem Weg der Verbesserungen einige Hauptkontrollpunkte. Erstens wurde der Apriori- Algorithmus 1993 von Agrawal et al. zusammen mit der Formalisierung des Problems. Der Algorithmus konnte Strip-Off einige Sätze aus den 2^n - 1Sätzen …

4
Arbeiten mit HPC-Clustern
An meiner Universität haben wir einen HPC-Computercluster. Ich benutze den Cluster, um Klassifikatoren zu trainieren und so weiter. Um einen Job an den Cluster zu senden (z. B. Python-Scikit-Lernskript), muss ich normalerweise ein Bash-Skript schreiben, das (unter anderem) einen Befehl wie enthält qsub script.py. Ich finde diesen Prozess jedoch sehr, …

3
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


2
Skalierbare Ausreißer- / Anomalieerkennung
Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option …

3
Wie skalieren verschiedene statistische Techniken (Regression, PCA usw.) mit Stichprobengröße und -dimension?
Gibt es eine bekannte allgemeine Tabelle statistischer Techniken, die erklären, wie sie mit Stichprobengröße und -dimension skalieren? Zum Beispiel erzählte mir ein Freund neulich, dass die Berechnungszeit für das schnelle Sortieren eindimensionaler Daten der Größe n n * log (n) ist. Wenn wir zum Beispiel y gegen X zurückführen, wobei …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.