Data Science

2

Doc2Vec - So beschriften Sie die Absätze (gensim)

Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht. Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze …

17 machine-learning text-mining word-embeddings word2vec

3

Bagging vs Dropout in tiefen neuronalen Netzen

Bagging ist die Erzeugung mehrerer Prädiktoren, die wie ein einzelner Prädiktor zusammenarbeiten. Dropout ist eine Technik, die neuronalen Netzen beibringt, alle möglichen Teilnetze zu mitteln. Wenn man sich die wichtigsten Kaggle-Wettbewerbe ansieht, scheint es, dass diese beiden Techniken sehr oft zusammen angewendet werden. Ich kann keinen theoretischen Unterschied sehen, abgesehen …

17 machine-learning neural-network deep-learning

1

Algorithmen für das Textclustering

Ich habe ein Problem damit, eine große Menge von Sätzen nach ihrer Bedeutung in Gruppen zusammenzufassen. Dies ähnelt einem Problem, wenn Sie viele Sätze haben und diese nach ihrer Bedeutung gruppieren möchten. Welche Algorithmen werden dazu vorgeschlagen? Ich kenne die Anzahl der Cluster im Voraus nicht (und da weitere Daten …

17 clustering text-mining algorithms scikit-learn

2

Wie soll Ethik in der Datenwissenschaft angewendet werden?

Vor kurzem gab es eine große Aufregung, als Facebook mit seinen Nutzern experimentierte, um herauszufinden, ob sie die Emotionen der Nutzer verändern könnten und jetzt okcupid sind . Während ich bin kein professioneller Daten Wissenschaftler ich gelesen Daten Wissenschaft Ethik von Cathy O'Neill Buch ‚Doing Daten Wissenschaft‘ und würde gerne …

17 social-network-analysis

3

Die nächsten Nachbarn suchen nach sehr hochdimensionalen Daten

Ich habe eine große, spärliche Matrix von Benutzern und Elementen, die sie mögen (in der Größenordnung von 1 Million Benutzern und 100.000 Elementen mit einem sehr geringen Grad an Sparsamkeit). Ich suche nach Möglichkeiten, wie ich eine kNN-Suche durchführen kann. Angesichts der Größe meines Datensatzes und einiger von mir durchgeführter …

17 machine-learning distributed map-reduce dimensionality-reduction

4

K-means: Was sind einige gute Möglichkeiten, um einen effizienten Satz von Anfangsschwerpunkten zu wählen?

Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden geschätzt.

17 data-mining clustering k-means

4

Zusätzliche Ausgabeebene in einem neuronalen Netzwerk (Dezimal zu Binär)

Ich arbeite gerade an einer Frage aus dem Online-Buch: http://neuralnetworksanddeeplearning.com/chap1.html Ich kann verstehen, dass, wenn die zusätzliche Ausgangsschicht aus 5 Ausgangsneuronen besteht, ich wahrscheinlich eine Vorspannung von 0,5 und ein Gewicht von jeweils 0,5 für die vorherige Schicht festlegen könnte. Die Frage lautet nun aber: Eine neue Schicht von vier …

17 neural-network

6

Womit generieren Sie ein Dashboard in R?

Ich muss regelmäßige (tägliche, monatliche) Webanalyse-Dashboard-Berichte erstellen. Sie sind statisch und erfordern keine Interaktion. Stellen Sie sich daher eine PDF-Datei als Zielausgabe vor. In den Berichten werden Tabellen und Diagramme gemischt (hauptsächlich mit ggplot2 erstellte Sparkline- und Bullet-Diagramme). Denken Sie an Stephen Few / Perceptual Edge-Dashboards wie: aber auf Web-Analytics …

17 r visualization

2

Verwenden Sie liblinear für Big Data zur semantischen Analyse

Ich benutze Libsvm , um Daten zu trainieren und Klassifizierungen für semantische Analyseprobleme vorherzusagen . Bei umfangreichen Daten tritt jedoch ein Leistungsproblem auf, da die semantische Analyse das Problem der n-Dimension betrifft . Letztes Jahr wurde Liblinear veröffentlicht und kann Leistungsengpässe beheben . Aber es kostet zu viel Speicher . …

17 machine-learning bigdata libsvm

4

Clustering basierend auf Ähnlichkeitswerten

Es sei angenommen , dass wir eine Reihe von Elementen haben E und eine Ähnlichkeit ( nicht Abstand ) Funktion sim (ei, ej) zwischen zwei Elementen ei, ej ∈ E . Wie können wir die Elemente von E mit sim (effizient) clustern ? k - bedeutet zum Beispiel, dass ein …

17 clustering algorithms similarity

7

Visualisierung eines Diagramms mit einer Million Scheitelpunkten

Was ist das beste Werkzeug, um ein Diagramm mit 1000000 Eckpunkten zu visualisieren (die Eckpunkte und Kanten zu zeichnen)? Es gibt ungefähr 50000 Kanten in der Grafik. Und ich kann die Position einzelner Eckpunkte und Kanten berechnen. Ich denke darüber nach, ein Programm zu schreiben, um ein SVG zu generieren. …

17 visualization graphs

5

Optische Erkennung von Katzen mittels Anomalieerkennung

Ich habe ein Hobbyprojekt, für das ich mich einsetzen möchte, um meine bisher begrenzten Erfahrungen mit maschinellem Lernen zu verbessern. Ich habe den Coursera MOOC zu diesem Thema absolviert und abgeschlossen. Meine Frage bezieht sich auf die Machbarkeit des Projekts. Die Aufgabe ist folgende: Benachbarte Katzen besuchen von Zeit zu …

17 machine-learning

5

Die Daten in unserem relationalen DBMS werden immer größer. Ist es an der Zeit, auf NoSQL umzusteigen?

Wir haben eine soziale Netzwerkanwendung für eLearning-Zwecke erstellt. Es ist ein experimentelles Projekt, an dem wir in unserem Labor forschen. Es wird seit einiger Zeit in einigen Fallstudien verwendet und die Daten in unserem relationalen DBMS (SQL Server 2008) werden immer umfangreicher. Es sind jetzt ein paar Gigabyte und die …

17 nosql relational-dbms

1

Wie funktioniert der Parameter validation_split der Anpassungsfunktion von Keras?

Die Aufteilung der Validierung in Keras Sequential Model Fit-Funktionen ist unter https://keras.io/models/sequential/ wie folgt dokumentiert : validation_split: Float zwischen 0 und 1. Bruchteil der Trainingsdaten, die als Validierungsdaten verwendet werden sollen. Das Modell unterscheidet diesen Teil der Trainingsdaten, trainiert ihn nicht und bewertet den Verlust und alle Modellmetriken für diese …

17 keras data cross-validation

2

Was ist die GELU-Aktivierung?

Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet: G EL U( x ) = x P( X≤ x ) = x Φ ( x ) .GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).das entspricht Könnten Sie die Gleichung vereinfachen …

17 activation-function bert mathematics