Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

1
Wie viele Trainingsdaten benötigt word2vec?
Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als Klartext erwähnt wird In jedem Buch, ersetzen …

1
Wie flexibel ist die Verbindung zwischen Zielfunktion und Aktivierungsfunktion der Ausgangsschicht?
In vielen neuronalen Netzwerkpaketen scheint es Standard zu sein, die zu minimierende Zielfunktion mit der Aktivierungsfunktion in der Ausgabeschicht zu koppeln. Zum Beispiel ist es für eine lineare Ausgabeschicht, die für die Regression verwendet wird, Standard (und oft nur die Wahl), eine quadratische Fehlerzielfunktion zu haben. Eine andere übliche Paarung …


1
Wie berechne ich den Delta-Term einer Faltungsschicht unter Berücksichtigung der Delta-Terme und Gewichte der vorherigen Faltungsschicht?
Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in …

3
Sind Ontologien und das Semantic Web tot? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ist das Semantic Web tot? Sind Ontologien tot? …

2
Verstärkung eines lokalitätssensitiven Hash
Ich versuche, einen für die Kosinuslokalität sensiblen Hash zu erstellen, damit ich ähnliche Elementpaare finden kann, ohne jedes mögliche Paar vergleichen zu müssen. Ich habe es im Grunde funktioniert, aber die meisten Paare in meinen Daten scheinen Cosinus-Ähnlichkeit im Bereich von -0,2 bis +0,2 zu haben, also versuche ich, es …

3
Sagen Sie die beste Anrufzeit voraus
Ich habe einen Datensatz mit einer Reihe von Kunden in verschiedenen Städten Kaliforniens, dem Zeitpunkt des Anrufs für jeden Kunden und dem Status des Anrufs (Richtig, wenn der Kunde den Anruf entgegennimmt, und Falsch, wenn der Kunde nicht antwortet). Ich muss einen geeigneten Zeitpunkt finden, um zukünftige Kunden anzurufen, sodass …

2
Stochastischer Gradientenabstieg basierend auf Vektoroperationen?
Nehmen wir an, ich möchte einen stochastischen Regressionsalgorithmus für den Gradientenabstieg unter Verwendung eines Datensatzes mit N Stichproben trainieren. Da die Größe des Datensatzes festgelegt ist, werde ich die Daten T-mal wiederverwenden. Bei jeder Iteration oder "Epoche" verwende ich jedes Trainingsmuster genau einmal, nachdem ich den gesamten Trainingssatz zufällig neu …


3
Klassische Datensätze für die Netzwerkanalyse
Es gibt mehrere klassische Datensätze für Klassifizierungs- / Regressionsaufgaben des maschinellen Lernens. Die beliebtesten sind: Irisblumendatensatz ; Titanic-Datensatz ; Motor Trend Cars ; usw. Aber kennt jemand ähnliche Datensätze für die Netzwerkanalyse / Graphentheorie? Konkreter - Ich suche nach Gold-Standarddatensätzen zum Vergleichen / Bewerten / Lernen: Zentralitätsmaßnahmen; Netzwerk-Clustering-Algorithmen. Ich brauche …
10 dataset  graphs 

2
Wie viel Zeit brauchen Scikit-Klassifikatoren, um zu klassifizieren?
Ich plane, einen SVM-Klassifikator (Scikit Linear Support Vector Machine) für die Textklassifizierung auf einem Korpus zu verwenden, der aus 1 Million beschrifteten Dokumenten besteht. Was ich vorhabe, ist, wenn ein Benutzer ein Schlüsselwort eingibt, der Klassifizierer es zuerst in eine Kategorie klassifiziert und dann eine nachfolgende Abfrage zum Abrufen von …

2
Kreuzvalidierung: K-fach vs. wiederholte zufällige Teilstichprobe
Ich frage mich, welche Art von Modellkreuzvalidierung für das Klassifizierungsproblem gewählt werden soll: K-fach oder zufällige Unterabtastung (Bootstrap-Abtastung)? Ich gehe davon aus, dass 2/3 des Datensatzes (das sind ~ 1000 Elemente) für das Training und 1/3 für die Validierung verwendet werden. In diesem Fall ergibt K-Fold nur drei Iterationen (Folds), …

2
Neuronale Netze debuggen
Ich habe ein künstliches neuronales Netzwerk in Python mit der Optimierungsfunktion scipy.optimize.minimize (Gradient konjugieren) aufgebaut. Ich habe die Gradientenprüfung implementiert, alles doppelt überprüft usw. und bin mir ziemlich sicher, dass es richtig funktioniert. Ich habe es einige Male ausgeführt und es erreicht "Optimierung erfolgreich beendet". Wenn ich jedoch die Anzahl …

4
Wie debugge ich Datenanalyse?
Ich bin auf folgendes Problem gestoßen, das ich eher typisch finde. Ich habe einige große Datenmengen, beispielsweise einige Millionen Zeilen. Ich führe eine nicht triviale Analyse durch, z. B. eine SQL-Abfrage, die aus mehreren Unterabfragen besteht. Ich erhalte ein Ergebnis, das zum Beispiel besagt, dass die Eigenschaft X mit der …

1
Clustering von in ElasticSearch gespeicherten Kundendaten
Ich habe eine Reihe von Kundenprofilen in einem Elasticsearch- Cluster gespeichert . Diese Profile werden jetzt zum Erstellen von Zielgruppen für unsere E-Mail-Abonnements verwendet. Zielgruppen werden jetzt manuell mithilfe von Facetten-Suchfunktionen für Elasticsearch gebildet (z. B. alle männlichen Kunden im Alter von 23 Jahren mit einem Auto und 3 Kindern). …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.