Data Science

3

Wie kann ich die Korrelation zwischen Features und Zielvariable überprüfen?

Ich versuche, ein RegressionModell zu erstellen , und suche nach einer Möglichkeit, um zu überprüfen, ob eine Korrelation zwischen Features und Zielvariablen besteht. Dies ist meine Probe dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …

15 machine-learning scikit-learn regression linear-regression

3

GANs (Generative Adversarial Networks) auch für Text möglich?

Sind GANs - generative kontradiktorische Netzwerke - nur für Bilder geeignet oder können sie auch für Text verwendet werden? Trainieren Sie ein Netzwerk, um aussagekräftige Texte aus einer Zusammenfassung zu generieren. UPD - Zitate des GAN-Erfinders Ian Goodfellow. GANs wurden nicht auf NLP angewendet, da GANs nur für realwertige Daten …

14 gan

1

PyTorch vs. Tensorflow eifrig

Google hat kürzlich in tensorflow's Nightly Builds den Eager- Modus aufgenommen, eine unverzichtbare API für den Zugriff auf Tensorflow-Berechnungsfunktionen. Wie kann Tensorflow eifrig mit PyTorch verglichen werden? Einige Aspekte, die den Vergleich beeinflussen könnten, könnten sein: Vor- und Nachteile von eager aufgrund seines statischen Graph-Erbes (z. B. Namen in Knoten). …

14 deep-learning tensorflow pytorch

1

Ist eine geschichtete Stichprobe erforderlich (zufällige Gesamtstruktur, Python)?

Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht. Bisher stellte ich in meinem Projekt fest, dass der geschichtete Fall zu einer …

14 machine-learning python random-forest sampling training

4

Können wir mit generativen kontradiktorischen Netzwerken große Datenmengen generieren?

Ich habe ein Problem, bei dem ich nicht genügend Datensätze (Bilder) gefunden habe, um sie für das Training in mein tiefes neuronales Netzwerk einzuspeisen. Ich war so inspiriert von der Veröffentlichung Generative Adversarial Text to Image Synthesis von Scott Reed et al. über generative kontradiktorische Netzwerke. Ich war gespannt darauf, …

14 deep-learning gan

3

Warum sind Ensembles so unangemessen effektiv?

Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?

14 machine-learning data-mining predictive-modeling

4

Ähnlichkeit zwischen zwei Wörtern

Ich suche eine Python-Bibliothek, mit der ich die Ähnlichkeit zwischen zwei Wörtern oder Sätzen erkennen kann. Ich werde eine Audio-zu-Text-Konvertierung durchführen, die zu einem englischen Wörterbuch oder einem anderen Wort als einem Wörterbuch führt (dies kann ein Name für eine Person oder eine Firma sein). Beispiel: 1) Text in Audio-Ergebnis: …

14 nlp nltk

4

Wie kann man Postanschriften Fuzzy Matching machen?

Ich würde gerne wissen, wie man Postanschriften vergleicht, wenn sich deren Format unterscheidet oder wenn eine von ihnen falsch geschrieben ist. Bisher habe ich verschiedene Lösungen gefunden, aber ich denke, dass sie ziemlich alt und nicht sehr effizient sind. Ich bin mir sicher, dass es einige bessere Methoden gibt. Wenn …

14 text-mining data-cleaning

4

AlphaGo (und andere Spieleprogramme, bei denen das Lernen durch Verstärkung verwendet wird) ohne menschliche Datenbank

Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden. Das Programm AlphaGo wurde unter anderem mit Hilfe von neuronalen Netzen (Monte-Carlo-Erforschung …

14 reinforcement-learning

1

Können nähere Punkte in der T-SNE-Visualisierung als ähnlicher angesehen werden?

Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung). Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 …

14 visualization dimensionality-reduction tsne manifold

2

Warum müssen Aktivierungsfunktionen monoton sein?

Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen. Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, …

14 machine-learning neural-network

5

Open Source Data Science Projekte sollen dazu beitragen

Beiträge in Open-Source-Projekten sind in der Regel eine gute Möglichkeit, um sich mit Einsteigern vertraut zu machen und einen neuen Bereich für erfahrene Datenwissenschaftler und Analysten zu erschließen. Welche Projekte tragen Sie bei? Bitte geben Sie eine Einführung + Link auf Github.

14 beginner open-source

4

Entscheidungsbaum oder logistische Regression?

Ich arbeite an einem Klassifizierungsproblem. Ich habe einen Datensatz, der die gleiche Anzahl von kategorialen Variablen und kontinuierlichen Variablen enthält. Woher weiß ich, welche Technik ich anwenden soll? zwischen einem Entscheidungsbaum und einer logistischen Regression? Ist es richtig anzunehmen, dass die logistische Regression für kontinuierliche Variablen und der Entscheidungsbaum für …

14 classification logistic-regression decision-trees

2

Schneller Algorithmus für 10 ^ 10 Punkte?

Ich versuche k-means Clustering auf einer Menge von 10-dimensionalen Punkten durchzuführen. Der Haken: Es gibt 10 ^ 10 Punkte . Ich suche nur die Mitte und Größe der größten Cluster (sagen wir 10 bis 100 Cluster); Es ist mir egal, in welchem Cluster jeder Punkt endet. Die Verwendung von k-means …

14 clustering k-means

2

Verwenden von Attributen zum Klassifizieren / Gruppieren von Benutzerprofilen

Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …

14 machine-learning data-mining classification clustering