Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

3
Wie kann ich die Korrelation zwischen Features und Zielvariable überprüfen?
Ich versuche, ein RegressionModell zu erstellen , und suche nach einer Möglichkeit, um zu überprüfen, ob eine Korrelation zwischen Features und Zielvariablen besteht. Dies ist meine Probe dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …

3
GANs (Generative Adversarial Networks) auch für Text möglich?
Sind GANs - generative kontradiktorische Netzwerke - nur für Bilder geeignet oder können sie auch für Text verwendet werden? Trainieren Sie ein Netzwerk, um aussagekräftige Texte aus einer Zusammenfassung zu generieren. UPD - Zitate des GAN-Erfinders Ian Goodfellow. GANs wurden nicht auf NLP angewendet, da GANs nur für realwertige Daten …
14 gan 

1
PyTorch vs. Tensorflow eifrig
Google hat kürzlich in tensorflow's Nightly Builds den Eager- Modus aufgenommen, eine unverzichtbare API für den Zugriff auf Tensorflow-Berechnungsfunktionen. Wie kann Tensorflow eifrig mit PyTorch verglichen werden? Einige Aspekte, die den Vergleich beeinflussen könnten, könnten sein: Vor- und Nachteile von eager aufgrund seines statischen Graph-Erbes (z. B. Namen in Knoten). …

1
Ist eine geschichtete Stichprobe erforderlich (zufällige Gesamtstruktur, Python)?
Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht. Bisher stellte ich in meinem Projekt fest, dass der geschichtete Fall zu einer …



4
Ähnlichkeit zwischen zwei Wörtern
Ich suche eine Python-Bibliothek, mit der ich die Ähnlichkeit zwischen zwei Wörtern oder Sätzen erkennen kann. Ich werde eine Audio-zu-Text-Konvertierung durchführen, die zu einem englischen Wörterbuch oder einem anderen Wort als einem Wörterbuch führt (dies kann ein Name für eine Person oder eine Firma sein). Beispiel: 1) Text in Audio-Ergebnis: …
14 nlp  nltk 

4
Wie kann man Postanschriften Fuzzy Matching machen?
Ich würde gerne wissen, wie man Postanschriften vergleicht, wenn sich deren Format unterscheidet oder wenn eine von ihnen falsch geschrieben ist. Bisher habe ich verschiedene Lösungen gefunden, aber ich denke, dass sie ziemlich alt und nicht sehr effizient sind. Ich bin mir sicher, dass es einige bessere Methoden gibt. Wenn …

4
AlphaGo (und andere Spieleprogramme, bei denen das Lernen durch Verstärkung verwendet wird) ohne menschliche Datenbank
Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden. Das Programm AlphaGo wurde unter anderem mit Hilfe von neuronalen Netzen (Monte-Carlo-Erforschung …

1
Können nähere Punkte in der T-SNE-Visualisierung als ähnlicher angesehen werden?
Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung). Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 …

2
Warum müssen Aktivierungsfunktionen monoton sein?
Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen. Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, …

5
Open Source Data Science Projekte sollen dazu beitragen
Beiträge in Open-Source-Projekten sind in der Regel eine gute Möglichkeit, um sich mit Einsteigern vertraut zu machen und einen neuen Bereich für erfahrene Datenwissenschaftler und Analysten zu erschließen. Welche Projekte tragen Sie bei? Bitte geben Sie eine Einführung + Link auf Github.

4
Entscheidungsbaum oder logistische Regression?
Ich arbeite an einem Klassifizierungsproblem. Ich habe einen Datensatz, der die gleiche Anzahl von kategorialen Variablen und kontinuierlichen Variablen enthält. Woher weiß ich, welche Technik ich anwenden soll? zwischen einem Entscheidungsbaum und einer logistischen Regression? Ist es richtig anzunehmen, dass die logistische Regression für kontinuierliche Variablen und der Entscheidungsbaum für …

2
Schneller Algorithmus für 10 ^ 10 Punkte?
Ich versuche k-means Clustering auf einer Menge von 10-dimensionalen Punkten durchzuführen. Der Haken: Es gibt 10 ^ 10 Punkte . Ich suche nur die Mitte und Größe der größten Cluster (sagen wir 10 bis 100 Cluster); Es ist mir egal, in welchem ​​Cluster jeder Punkt endet. Die Verwendung von k-means …

2
Verwenden von Attributen zum Klassifizieren / Gruppieren von Benutzerprofilen
Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.