Data Science scalability

12

Viele Menschen verwenden den Begriff Big Data eher kommerziell , um darauf hinzuweisen, dass große Datenmengen in die Berechnung einbezogen sind und daher potenzielle Lösungen eine gute Leistung aufweisen müssen. Natürlich sind Big Data immer mit Begriffen wie Skalierbarkeit und Effizienz verbunden, aber was genau definiert ein Problem als Big …

86 bigdata scalability efficiency performance

4

Data Science Tools mit Scala

Ich weiß, dass Spark vollständig in Scala integriert ist. Der Anwendungsfall ist speziell für große Datenmengen. Welche anderen Tools unterstützen Scala? Ist Scala am besten für größere Datensätze geeignet? Oder eignet es sich auch für kleinere Datensätze?

15 scalability scala

4

Suchen Sie beispielsweise nach Infrastruktur-Stacks / Workflows / Pipelines

Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. B. Hadoop, Monogodb / NOSQL, Storm, Kafka, ... Ich weiß, dass dies eine ziemlich breite Palette von Werkzeugen ist, die für verwendet werden verschiedene Typen, aber ich möchte mehr über deren Interaktion in Anwendungen erfahren, …

14 machine-learning bigdata efficiency scalability distributed

3

Können für MongoDB geschriebene Algorithmen zur Kartenreduzierung später auf Hadoop portiert werden?

In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein Ansatz besteht darin, die Daten aus MongoDB in einen Hadoop-Cluster zu extrahieren …

11 scalability apache-hadoop map-reduce mongodb

3

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Wie skalieren verschiedene statistische Techniken (Regression, PCA usw.) mit Stichprobengröße und -dimension?

Gibt es eine bekannte allgemeine Tabelle statistischer Techniken, die erklären, wie sie mit Stichprobengröße und -dimension skalieren? Zum Beispiel erzählte mir ein Freund neulich, dass die Berechnungszeit für das schnelle Sortieren eindimensionaler Daten der Größe n n * log (n) ist. Wenn wir zum Beispiel y gegen X zurückführen, wobei …

10 bigdata statistics efficiency scalability

1

Signalcodierung lernen

Ich habe eine große Anzahl von Samples, die Manchester-codierte Bitströme als Audiosignale darstellen. Die Frequenz, mit der sie codiert werden, ist die primäre Frequenzkomponente, wenn sie hoch ist, und im Hintergrund ist eine konstante Menge an weißem Rauschen zu sehen. Ich habe diese Streams manuell dekodiert, aber ich habe mich …

9 machine-learning data-mining scalability algorithms feature-selection

3

Vergleich von Experimenten, die über verschiedene Infrastrukturen laufen

Ich entwickle einen verteilten Algorithmus. Um die Effizienz zu verbessern, hängt er sowohl von der Anzahl der Festplatten (eine pro Maschine) als auch von einer effizienten Lastausgleichsstrategie ab. Mit mehr Festplatten können wir den Zeitaufwand für E / A reduzieren. Mit einer effizienten Lastausgleichsrichtlinie können wir Aufgaben ohne großen Aufwand …

8 bigdata efficiency performance scalability distributed

Als «scalability» getaggte Fragen