Data Science databases

9

Umgang mit der Versionskontrolle großer (binärer) Datenmengen

Ich bin ein Doktorand der Geophysik und arbeite mit großen Mengen von Bilddaten (Hunderte von GB, Zehntausende von Dateien). Ich kenne svnund gitverstehe mich ziemlich gut mit einer Projekthistorie, kombiniert mit der Fähigkeit, einfach zusammenzuarbeiten und Schutz vor Festplattenbeschädigung zu haben. Ich finde es gitauch sehr hilfreich, konsistente Backups zu …

46 bigdata databases binary version-control

3

Bewährte Methoden zum Speichern von Python-Modellen für maschinelles Lernen

Was sind die bewährten Methoden zum Speichern, Speichern und Weitergeben von Modellen für maschinelles Lernen? In Python speichern wir im Allgemeinen die Binärdarstellung des Modells mit pickle oder joblib. Modelle können in meinem Fall ~ 100Mo groß sein. Außerdem kann die JobLib ein Modell in mehreren Dateien speichern, es sei …

24 python databases binary

4

Was macht kolumnare Datenbanken datenwissenschaftlich?

Welche Vorteile bieten spaltenweise Datenspeicher, die sich besser für Data Science und Analytics eignen?

23 databases tools

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

Neo4j vs OrientDB vs Titan

Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …

13 data-mining graphs databases social-network-analysis

1

Wenn eine relationale Datenbank eine bessere Leistung aufweist als eine nicht relationale

Wenn eine relationale Datenbank wie MySQL eine bessere Leistung aufweist als eine nicht relationale Datenbank wie MongoDB? Ich habe neulich auf Quora eine Frage gesehen, warum Quora immer noch MySQL als Backend verwendet und dass ihre Leistung immer noch gut ist.

13 bigdata performance databases nosql

5

Vorteile des Pandas-Datenrahmens für die reguläre relationale Datenbank

In Data Science scheinen viele Pandas- Datenrahmen als Datenspeicher zu verwenden. Welche Eigenschaften von Pandas machen es zu einem überlegenen Datenspeicher im Vergleich zu regulären relationalen Datenbanken wie MySQL , die zum Speichern von Daten in vielen anderen Programmierbereichen verwendet werden? Während Pandas einige nützliche Funktionen für die Datenexploration bietet, …

13 pandas databases

3

Effizientes Datenbankmodell zum Speichern von mit n-Gramm indizierten Daten

Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist. Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten. Das klingt für mich so, als …

12 nlp databases

3

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Was ist schneller: PostgreSQL vs MongoDB auf großen JSON-Datasets?

Ich habe einen großen Datensatz mit 9 Millionen JSON-Objekten mit jeweils ~ 300 Bytes. Dies sind Beiträge eines Link-Aggregators: Links (URL, Titel und Autoren-ID) und Kommentare (Text und Autoren-ID) + Metadaten. Es kann sich durchaus um relationale Datensätze in einer Tabelle handeln, mit Ausnahme der Tatsache, dass sie ein Arrayfeld …

10 data-mining bigdata databases sql mongodb

3

Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Ist dieser Neo4j-Vergleich mit der RDBMS-Ausführungszeit korrekt?

Hintergrund: Das Folgende stammt aus dem Buch Graph Databases , das einen Leistungstest behandelt, der im Buch Neo4j in Aktion erwähnt wird : Beziehungen in einem Diagramm bilden natürlich Pfade. Beim Abfragen oder Durchlaufen des Diagramms werden folgende Pfade verwendet. Aufgrund der grundsätzlich pfadorientierten Natur des Datenmodells sind die meisten …

9 databases nosql neo4j

2

Erkennung menschlicher Aktivitäten unter Verwendung eines Smartphone-Datensatzproblems

Ich bin neu in dieser Community und hoffe, dass meine Frage hier gut passt. Im Rahmen meines Bachelor-Studiengangs Datenanalyse habe ich mich für das Projekt zur Erkennung menschlicher Aktivitäten mithilfe von Smartphone-Datensätzen entschieden. Für mich bezieht sich dieses Thema auf maschinelles Lernen und die Unterstützung von Vektormaschinen. Ich bin mit …

9 bigdata machine-learning databases clustering data-mining

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

Als «databases» getaggte Fragen