Eine umfassende Sammlung verwandter Daten, die für einen bequemen Zugriff organisiert sind und im Allgemeinen mit Software zum Aktualisieren und Abfragen der Daten verbunden sind.
Ich bin ein Doktorand der Geophysik und arbeite mit großen Mengen von Bilddaten (Hunderte von GB, Zehntausende von Dateien). Ich kenne svnund gitverstehe mich ziemlich gut mit einer Projekthistorie, kombiniert mit der Fähigkeit, einfach zusammenzuarbeiten und Schutz vor Festplattenbeschädigung zu haben. Ich finde es gitauch sehr hilfreich, konsistente Backups zu …
Was sind die bewährten Methoden zum Speichern, Speichern und Weitergeben von Modellen für maschinelles Lernen? In Python speichern wir im Allgemeinen die Binärdarstellung des Modells mit pickle oder joblib. Modelle können in meinem Fall ~ 100Mo groß sein. Außerdem kann die JobLib ein Modell in mehreren Dateien speichern, es sei …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …
Wenn eine relationale Datenbank wie MySQL eine bessere Leistung aufweist als eine nicht relationale Datenbank wie MongoDB? Ich habe neulich auf Quora eine Frage gesehen, warum Quora immer noch MySQL als Backend verwendet und dass ihre Leistung immer noch gut ist.
In Data Science scheinen viele Pandas- Datenrahmen als Datenspeicher zu verwenden. Welche Eigenschaften von Pandas machen es zu einem überlegenen Datenspeicher im Vergleich zu regulären relationalen Datenbanken wie MySQL , die zum Speichern von Daten in vielen anderen Programmierbereichen verwendet werden? Während Pandas einige nützliche Funktionen für die Datenexploration bietet, …
Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist. Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten. Das klingt für mich so, als …
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
Ich habe einen großen Datensatz mit 9 Millionen JSON-Objekten mit jeweils ~ 300 Bytes. Dies sind Beiträge eines Link-Aggregators: Links (URL, Titel und Autoren-ID) und Kommentare (Text und Autoren-ID) + Metadaten. Es kann sich durchaus um relationale Datensätze in einer Tabelle handeln, mit Ausnahme der Tatsache, dass sie ein Arrayfeld …
Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?
Hintergrund: Das Folgende stammt aus dem Buch Graph Databases , das einen Leistungstest behandelt, der im Buch Neo4j in Aktion erwähnt wird : Beziehungen in einem Diagramm bilden natürlich Pfade. Beim Abfragen oder Durchlaufen des Diagramms werden folgende Pfade verwendet. Aufgrund der grundsätzlich pfadorientierten Natur des Datenmodells sind die meisten …
Ich bin neu in dieser Community und hoffe, dass meine Frage hier gut passt. Im Rahmen meines Bachelor-Studiengangs Datenanalyse habe ich mich für das Projekt zur Erkennung menschlicher Aktivitäten mithilfe von Smartphone-Datensätzen entschieden. Für mich bezieht sich dieses Thema auf maschinelles Lernen und die Unterstützung von Vektormaschinen. Ich bin mit …
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.