Data Science

1

Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …

13 data-mining graphs databases social-network-analysis

2

Visualisierung des Deep Neural Network Trainings

Ich versuche, ein Äquivalent zu Hinton-Diagrammen für mehrschichtige Netzwerke zu finden, um die Gewichte während des Trainings zu zeichnen. Das trainierte Netzwerk ähnelt in gewisser Weise einem Deep SRN, dh es hat eine hohe Anzahl von Mehrfachgewichtungsmatrizen, was die gleichzeitige Darstellung mehrerer Hinton-Diagramme visuell verwirrend machen würde. Kennt jemand eine …

13 machine-learning neural-network visualization deep-learning

1

Zufällige Onlinewälder durch Hinzufügen weiterer einzelner Entscheidungsbäume

Ein Random Forest (RF) wird von einem Ensemble von Decision Trees (DT) erstellt. Durch die Verwendung von Bagging wird jeder DT in einer anderen Datenuntermenge trainiert. Gibt es also eine Möglichkeit, eine zufällige Online-Gesamtstruktur zu implementieren, indem neue Daten mit mehr Entscheidungsschwierigkeiten versehen werden? Zum Beispiel haben wir 10K-Samples und …

13 random-forest online-learning

2

Welche Funktionen werden im Allgemeinen von Parse-Bäumen beim Klassifizierungsprozess in NLP verwendet?

Ich untersuche verschiedene Arten von Analysebaumstrukturen. Die beiden weit verbreiteten Analysebaumstrukturen sind a) Wahlkreisbasierter Analysebaum und b) Abhängigkeitsbasierte Analysebaumstrukturen. Ich kann beide Arten von Analysebaumstrukturen mit dem Stanford NLP-Paket generieren. Ich bin mir jedoch nicht sicher, wie ich diese Baumstrukturen für meine Klassifizierungsaufgabe verwenden soll. Zum Beispiel: Wenn ich eine …

13 machine-learning nlp feature-selection feature-extraction

4

Studieren von Algorithmen für maschinelles Lernen: Tiefe des Verständnisses vs. Anzahl der Algorithmen

Vor kurzem wurde ich in das Gebiet der Data Science eingeführt (es sind ungefähr 6 Monate vergangen), und ich begann die Reise mit einem Kurs zum maschinellen Lernen von Andrew Ng und einer Stelle, die mit der Arbeit an der Data Science-Spezialisierung von JHU begann. In der praktischen Anwendung habe …

13 machine-learning

2

Analysieren von A / B-Testergebnissen, die nicht normal verteilt sind, unter Verwendung eines unabhängigen T-Tests

Ich habe eine Reihe von Ergebnissen aus einem A / B-Test (eine Kontrollgruppe, eine Merkmalsgruppe), die nicht zu einer Normalverteilung passen. Tatsächlich ähnelt die Verteilung eher der Landau-Verteilung. Ich glaube, dass der unabhängige T-Test erfordert, dass die Stichproben mindestens annähernd normal verteilt sind, was mich davon abhält, den T-Test als …

13 dataset statistics ab-test

6

Datensätze, die Best Practices verstehen

Ich bin ein CS-Masterstudent im Bereich Data Mining. Mein Vorgesetzter hat mir einmal gesagt, dass ich die Daten vollständig verstehen und sicherstellen muss, dass die Daten sauber und korrekt sind, bevor ich einen Klassifikator ausführe oder etwas mit einem Datensatz mache. Meine Fragen: Was sind die Best Practices zum Verständnis …

13 statistics dataset

1

Wenn eine relationale Datenbank eine bessere Leistung aufweist als eine nicht relationale

Wenn eine relationale Datenbank wie MySQL eine bessere Leistung aufweist als eine nicht relationale Datenbank wie MongoDB? Ich habe neulich auf Quora eine Frage gesehen, warum Quora immer noch MySQL als Backend verwendet und dass ihre Leistung immer noch gut ist.

13 bigdata performance databases nosql

4

Big Data-Fallstudie oder Anwendungsbeispiel

Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten? Was war das …

13 data-mining bigdata usecase

3

Bildgrößenänderung und -auffüllung für CNN

Ich möchte eine CNN für die Bilderkennung trainieren. Bilder für das Training haben keine feste Größe. Ich möchte, dass die Eingabegröße für die CNN beispielsweise 50 x 100 (Höhe x Breite) beträgt. Wenn ich einige kleine Bilder (zum Beispiel 32x32) auf die Eingabegröße verkleinere, wird der Inhalt des Bildes horizontal …

13 machine-learning image-classification preprocessing image-recognition

1

Entscheidungsbäume: blattweise (am besten zuerst) und ebene Baumdurchquerung

Fehler 1: Die Beschreibung von LightGBM bezüglich der Art und Weise, wie der Baum erweitert wird, verwirrt mich . Sie stellen fest: Die meisten Lernalgorithmen für Entscheidungsbäume vergrößern den Baum stufenweise (in der Tiefe), wie in der folgenden Abbildung dargestellt: Fragen 1 : Welche "meisten" Algorithmen werden auf diese Weise …

13 decision-trees xgboost

3

Warum sind Autoencoder zur Dimensionsreduzierung symmetrisch?

Ich bin kein Experte für Autoencoder oder neuronale Netze. Verzeihen Sie mir, wenn dies eine dumme Frage ist. Zur Dimensionsreduktion oder zur Visualisierung von Clustern in hochdimensionalen Daten können wir einen Autoencoder verwenden, um eine (verlustbehaftete) zweidimensionale Darstellung zu erstellen, indem wir die Ausgabe der Netzwerkschicht mit zwei Knoten untersuchen. …

13 neural-network dimensionality-reduction autoencoder

3

Warum verwenden Convolutions immer ungerade Zahlen als filter_size?

Betrachten wir 90-99% der Veröffentlichungen über ein CNN (ConvNet). Die überwiegende Mehrheit von ihnen verwendet Filtergrößen mit ungeraden Zahlen : {1, 3, 5, 7} für die am häufigsten verwendeten. Diese Situation kann zu einem Problem führen: Bei diesen Filtergrößen ist die Faltungsoperation normalerweise nicht perfekt, wenn ein Abstand von 2 …

13 deep-learning convnet computer-vision convolution

3

Haben neuronale Netze Erklärbarkeit wie Entscheidungsbäume?

In Decision Trees können wir die Ausgabe der Baumstruktur verstehen und visualisieren, wie der Decision Tree Entscheidungen trifft. Entscheidungsbäume sind also erklärbar (ihre Ausgabe kann leicht erklärt werden.) Haben wir Erklärbarkeit in neuronalen Netzen wie bei Entscheidungsbäumen?

13 neural-network

1

Was ist eine 1D Convolutional Layer im Deep Learning?

Ich verstehe die Rolle und den Mechanismus von Faltungsebenen in Deep Learning für die Bildverarbeitung bei 2D- oder 3D-Implementierungen allgemein - sie versuchen "einfach", 2D-Muster in Bildern zu erfassen (bei 3D in 3 Kanälen). Aber kürzlich bin ich im Kontext der Verarbeitung natürlicher Sprache auf 1D-Faltungsschichten gestoßen, was für mich …

13 deep-learning nlp convolution