Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht. Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze …
Bagging ist die Erzeugung mehrerer Prädiktoren, die wie ein einzelner Prädiktor zusammenarbeiten. Dropout ist eine Technik, die neuronalen Netzen beibringt, alle möglichen Teilnetze zu mitteln. Wenn man sich die wichtigsten Kaggle-Wettbewerbe ansieht, scheint es, dass diese beiden Techniken sehr oft zusammen angewendet werden. Ich kann keinen theoretischen Unterschied sehen, abgesehen …
Ich habe ein Problem damit, eine große Menge von Sätzen nach ihrer Bedeutung in Gruppen zusammenzufassen. Dies ähnelt einem Problem, wenn Sie viele Sätze haben und diese nach ihrer Bedeutung gruppieren möchten. Welche Algorithmen werden dazu vorgeschlagen? Ich kenne die Anzahl der Cluster im Voraus nicht (und da weitere Daten …
Vor kurzem gab es eine große Aufregung, als Facebook mit seinen Nutzern experimentierte, um herauszufinden, ob sie die Emotionen der Nutzer verändern könnten und jetzt okcupid sind . Während ich bin kein professioneller Daten Wissenschaftler ich gelesen Daten Wissenschaft Ethik von Cathy O'Neill Buch ‚Doing Daten Wissenschaft‘ und würde gerne …
Ich habe eine große, spärliche Matrix von Benutzern und Elementen, die sie mögen (in der Größenordnung von 1 Million Benutzern und 100.000 Elementen mit einem sehr geringen Grad an Sparsamkeit). Ich suche nach Möglichkeiten, wie ich eine kNN-Suche durchführen kann. Angesichts der Größe meines Datensatzes und einiger von mir durchgeführter …
Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden geschätzt.
Ich arbeite gerade an einer Frage aus dem Online-Buch: http://neuralnetworksanddeeplearning.com/chap1.html Ich kann verstehen, dass, wenn die zusätzliche Ausgangsschicht aus 5 Ausgangsneuronen besteht, ich wahrscheinlich eine Vorspannung von 0,5 und ein Gewicht von jeweils 0,5 für die vorherige Schicht festlegen könnte. Die Frage lautet nun aber: Eine neue Schicht von vier …
Ich muss regelmäßige (tägliche, monatliche) Webanalyse-Dashboard-Berichte erstellen. Sie sind statisch und erfordern keine Interaktion. Stellen Sie sich daher eine PDF-Datei als Zielausgabe vor. In den Berichten werden Tabellen und Diagramme gemischt (hauptsächlich mit ggplot2 erstellte Sparkline- und Bullet-Diagramme). Denken Sie an Stephen Few / Perceptual Edge-Dashboards wie: aber auf Web-Analytics …
Ich benutze Libsvm , um Daten zu trainieren und Klassifizierungen für semantische Analyseprobleme vorherzusagen . Bei umfangreichen Daten tritt jedoch ein Leistungsproblem auf, da die semantische Analyse das Problem der n-Dimension betrifft . Letztes Jahr wurde Liblinear veröffentlicht und kann Leistungsengpässe beheben . Aber es kostet zu viel Speicher . …
Es sei angenommen , dass wir eine Reihe von Elementen haben E und eine Ähnlichkeit ( nicht Abstand ) Funktion sim (ei, ej) zwischen zwei Elementen ei, ej ∈ E . Wie können wir die Elemente von E mit sim (effizient) clustern ? k - bedeutet zum Beispiel, dass ein …
Was ist das beste Werkzeug, um ein Diagramm mit 1000000 Eckpunkten zu visualisieren (die Eckpunkte und Kanten zu zeichnen)? Es gibt ungefähr 50000 Kanten in der Grafik. Und ich kann die Position einzelner Eckpunkte und Kanten berechnen. Ich denke darüber nach, ein Programm zu schreiben, um ein SVG zu generieren. …
Ich habe ein Hobbyprojekt, für das ich mich einsetzen möchte, um meine bisher begrenzten Erfahrungen mit maschinellem Lernen zu verbessern. Ich habe den Coursera MOOC zu diesem Thema absolviert und abgeschlossen. Meine Frage bezieht sich auf die Machbarkeit des Projekts. Die Aufgabe ist folgende: Benachbarte Katzen besuchen von Zeit zu …
Wir haben eine soziale Netzwerkanwendung für eLearning-Zwecke erstellt. Es ist ein experimentelles Projekt, an dem wir in unserem Labor forschen. Es wird seit einiger Zeit in einigen Fallstudien verwendet und die Daten in unserem relationalen DBMS (SQL Server 2008) werden immer umfangreicher. Es sind jetzt ein paar Gigabyte und die …
Die Aufteilung der Validierung in Keras Sequential Model Fit-Funktionen ist unter https://keras.io/models/sequential/ wie folgt dokumentiert : validation_split: Float zwischen 0 und 1. Bruchteil der Trainingsdaten, die als Validierungsdaten verwendet werden sollen. Das Modell unterscheidet diesen Teil der Trainingsdaten, trainiert ihn nicht und bewertet den Verlust und alle Modellmetriken für diese …
Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet: G EL U( x ) = x P( X≤ x ) = x Φ ( x ) .GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).das entspricht Könnten Sie die Gleichung vereinfachen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.