Data Science

1

Wie viele Trainingsdaten benötigt word2vec?

Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als Klartext erwähnt wird In jedem Buch, ersetzen …

10 text-mining word-embeddings

1

Wie flexibel ist die Verbindung zwischen Zielfunktion und Aktivierungsfunktion der Ausgangsschicht?

In vielen neuronalen Netzwerkpaketen scheint es Standard zu sein, die zu minimierende Zielfunktion mit der Aktivierungsfunktion in der Ausgabeschicht zu koppeln. Zum Beispiel ist es für eine lineare Ausgabeschicht, die für die Regression verwendet wird, Standard (und oft nur die Wahl), eine quadratische Fehlerzielfunktion zu haben. Eine andere übliche Paarung …

10 neural-network gradient-descent

1

Müssen Sie Daten normalisieren, wenn Sie Entscheidungsbäume mit R erstellen?

Unser Datensatz in dieser Woche hat also 14 Attribute und jede Spalte hat sehr unterschiedliche Werte. Eine Spalte hat Werte unter 1, während eine andere Spalte Werte zwischen drei und vier ganzen Ziffern hat. Wir haben letzte Woche die Normalisierung gelernt und es scheint, als sollten Sie Daten normalisieren, wenn …

10 r beginner

1

Wie berechne ich den Delta-Term einer Faltungsschicht unter Berücksichtigung der Delta-Terme und Gewichte der vorherigen Faltungsschicht?

Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in …

10 machine-learning data-mining neural-network deep-learning

3

Sind Ontologien und das Semantic Web tot? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ist das Semantic Web tot? Sind Ontologien tot? …

10 knowledge-base

2

Verstärkung eines lokalitätssensitiven Hash

Ich versuche, einen für die Kosinuslokalität sensiblen Hash zu erstellen, damit ich ähnliche Elementpaare finden kann, ohne jedes mögliche Paar vergleichen zu müssen. Ich habe es im Grunde funktioniert, aber die meisten Paare in meinen Daten scheinen Cosinus-Ähnlichkeit im Bereich von -0,2 bis +0,2 zu haben, also versuche ich, es …

10 machine-learning

3

Sagen Sie die beste Anrufzeit voraus

Ich habe einen Datensatz mit einer Reihe von Kunden in verschiedenen Städten Kaliforniens, dem Zeitpunkt des Anrufs für jeden Kunden und dem Status des Anrufs (Richtig, wenn der Kunde den Anruf entgegennimmt, und Falsch, wenn der Kunde nicht antwortet). Ich muss einen geeigneten Zeitpunkt finden, um zukünftige Kunden anzurufen, sodass …

10 machine-learning classification regression scikit-learn

2

Stochastischer Gradientenabstieg basierend auf Vektoroperationen?

Nehmen wir an, ich möchte einen stochastischen Regressionsalgorithmus für den Gradientenabstieg unter Verwendung eines Datensatzes mit N Stichproben trainieren. Da die Größe des Datensatzes festgelegt ist, werde ich die Daten T-mal wiederverwenden. Bei jeder Iteration oder "Epoche" verwende ich jedes Trainingsmuster genau einmal, nachdem ich den gesamten Trainingssatz zufällig neu …

10 python gradient-descent regression

4

Wie erstellen Sie eine optimierte Wanderliste mit Längen- und Breitengradkoordinaten?

Ich arbeite an einer politischen Kampagne, in der Dutzende von Freiwilligen in den nächsten Wochen Türklopfen-Aktionen durchführen werden. Welche Algorithmen können bei einer Liste mit Namen, Adressen und Long / Lat-Koordinaten verwendet werden, um eine optimierte Wanderliste zu erstellen.

10 algorithms

3

Klassische Datensätze für die Netzwerkanalyse

Es gibt mehrere klassische Datensätze für Klassifizierungs- / Regressionsaufgaben des maschinellen Lernens. Die beliebtesten sind: Irisblumendatensatz ; Titanic-Datensatz ; Motor Trend Cars ; usw. Aber kennt jemand ähnliche Datensätze für die Netzwerkanalyse / Graphentheorie? Konkreter - Ich suche nach Gold-Standarddatensätzen zum Vergleichen / Bewerten / Lernen: Zentralitätsmaßnahmen; Netzwerk-Clustering-Algorithmen. Ich brauche …

10 dataset graphs

2

Wie viel Zeit brauchen Scikit-Klassifikatoren, um zu klassifizieren?

Ich plane, einen SVM-Klassifikator (Scikit Linear Support Vector Machine) für die Textklassifizierung auf einem Korpus zu verwenden, der aus 1 Million beschrifteten Dokumenten besteht. Was ich vorhabe, ist, wenn ein Benutzer ein Schlüsselwort eingibt, der Klassifizierer es zuerst in eine Kategorie klassifiziert und dann eine nachfolgende Abfrage zum Abrufen von …

10 machine-learning classification python scikit-learn

2

Kreuzvalidierung: K-fach vs. wiederholte zufällige Teilstichprobe

Ich frage mich, welche Art von Modellkreuzvalidierung für das Klassifizierungsproblem gewählt werden soll: K-fach oder zufällige Unterabtastung (Bootstrap-Abtastung)? Ich gehe davon aus, dass 2/3 des Datensatzes (das sind ~ 1000 Elemente) für das Training und 1/3 für die Validierung verwendet werden. In diesem Fall ergibt K-Fold nur drei Iterationen (Folds), …

10 cross-validation sampling

2

Neuronale Netze debuggen

Ich habe ein künstliches neuronales Netzwerk in Python mit der Optimierungsfunktion scipy.optimize.minimize (Gradient konjugieren) aufgebaut. Ich habe die Gradientenprüfung implementiert, alles doppelt überprüft usw. und bin mir ziemlich sicher, dass es richtig funktioniert. Ich habe es einige Male ausgeführt und es erreicht "Optimierung erfolgreich beendet". Wenn ich jedoch die Anzahl …

10 machine-learning python neural-network

4

Wie debugge ich Datenanalyse?

Ich bin auf folgendes Problem gestoßen, das ich eher typisch finde. Ich habe einige große Datenmengen, beispielsweise einige Millionen Zeilen. Ich führe eine nicht triviale Analyse durch, z. B. eine SQL-Abfrage, die aus mehreren Unterabfragen besteht. Ich erhalte ein Ergebnis, das zum Beispiel besagt, dass die Eigenschaft X mit der …

10 data-mining sql experiments

1

Clustering von in ElasticSearch gespeicherten Kundendaten

Ich habe eine Reihe von Kundenprofilen in einem Elasticsearch- Cluster gespeichert . Diese Profile werden jetzt zum Erstellen von Zielgruppen für unsere E-Mail-Abonnements verwendet. Zielgruppen werden jetzt manuell mithilfe von Facetten-Suchfunktionen für Elasticsearch gebildet (z. B. alle männlichen Kunden im Alter von 23 Jahren mit einem Auto und 3 Kindern). …

10 data-mining clustering