Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten


11
Was ist Dimensionsreduktion? Was ist der Unterschied zwischen Merkmalsauswahl und -extraktion?
Aus Wikipedia, Dimensionsreduktion oder Dimensionsreduktion ist der Prozess der Reduzierung der Anzahl der betrachteten Zufallsvariablen und kann in Merkmalsauswahl und Merkmalsextraktion unterteilt werden. Was ist der Unterschied zwischen Merkmalsauswahl und Merkmalsextraktion? Was ist ein Beispiel für eine Dimensionsreduktion bei einer Natural Language Processing-Aufgabe?

5
Wann ist ein Modell Underfitted?
Die Logik besagt oft, dass durch die Unteranpassung eines Modells dessen Generalisierungskapazität erhöht wird. Trotzdem verschlechtern sich die Modelle zu einem bestimmten Zeitpunkt eindeutig, unabhängig von der Komplexität der Daten. Woher wissen Sie, dass Ihr Modell die richtige Balance gefunden hat und nicht den Daten entspricht, die es modellieren möchte? …

4
Wie sind 1x1-Faltungen mit einer vollständig verbundenen Ebene identisch?
Ich habe kürzlich den Kommentar von Yan LeCuns zu 1x1-Windungen gelesen : In Convolutional Nets gibt es keine "vollständig verbundenen Schichten". Es gibt nur Faltungsschichten mit 1x1-Faltungskernen und einer vollständigen Verbindungstabelle. Es ist eine zu selten verstandene Tatsache, dass ConvNets keine Eingabe mit fester Größe benötigen. Sie können sie auf …

3
RNN vs CNN auf hohem Niveau
Ich habe über die Recurrent Neural Networks (RNN) und ihre Varietäten sowie Convolutional Neural Networks (CNN) und ihre Varietäten nachgedacht. Wären diese beiden Punkte fair zu sagen: Verwenden Sie CNNs, um eine Komponente (z. B. ein Bild) in Unterkomponenten (z. B. ein Objekt in einem Bild, z. B. den Umriss …


2
Wann wird die normale Initialisierung (He oder Glorot) über die gleichmäßige Initialisierung angewendet? Und welche Auswirkungen hat die Batch-Normalisierung?
Ich wusste, dass das Residual Network (ResNet) die normale Initialisierung populär machte. In ResNet wird die normale He-Initialisierung verwendet , während die erste Ebene die einheitliche He-Initialisierung verwendet. Ich habe das ResNet-Papier und das "Delving Deep into Rectifiers" -Papier (He-Initialisierungspapier) durchgesehen, aber ich habe keine Erwähnung für normales Init vs. …

8
Clustering von Geostandortkoordinaten (Lat, lange Paare)
Was ist der richtige Ansatz und Clustering-Algorithmus für das Geolocation-Clustering? Ich verwende den folgenden Code, um Geolocation-Koordinaten zu clustern: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) …

9
Tools und Protokolle für reproduzierbare Datenforschung mit Python
Ich arbeite an einem datenwissenschaftlichen Projekt mit Python. Das Projekt hat mehrere Phasen. Jede Phase umfasst das Aufnehmen eines Datensatzes, das Verwenden von Python-Skripten, Hilfsdaten, Konfigurationen und Parametern sowie das Erstellen eines weiteren Datensatzes. Ich speichere den Code in Git, so dass dieser Teil abgedeckt ist. Ich würde gerne hören …


4
Latente Dirichlet-Zuordnung vs. Hierarchischer Dirichlet-Prozess
Latent Dirichlet Allocation (LDA) und Hierarchical Dirichlet Process (HDP) sind beide Themenmodellierungsprozesse. Der Hauptunterschied ist, dass LDA die Angabe der Anzahl der Themen erfordert und HDP nicht. Warum ist das so? Und was sind die Unterschiede, Vor- und Nachteile beider Methoden zur Themenmodellierung?
49 nlp  topic-model  lda 

8
Warum ist Überanpassung beim maschinellen Lernen schlecht?
In der Logik wird häufig angegeben, dass die Generalisierungsfähigkeit eines Modells durch Überanpassung eingeschränkt ist. Dies kann jedoch nur bedeuten, dass die Überanpassung ein Modell nach einer bestimmten Komplexität an der Verbesserung hindert. Wird das Modell durch Überanpassung ungeachtet der Komplexität der Daten schlechter, und wenn ja, warum ist dies …

9
Ist die R-Sprache für Big Data geeignet?
R hat viele Bibliotheken, die auf Datenanalyse abzielen (z. B. JAGS, BUGS, ARULES usw.) und wird in populären Lehrbüchern erwähnt, wie z. B .: J. Krusche, Doing Bayesian Data Analysis; B.Lantz, "Maschinelles Lernen mit R". Ich habe eine Richtlinie von 5 TB für einen Datensatz gesehen, der als Big Data …
48 bigdata  r 


4
Neuronale Netze: Welche Kostenfunktion soll verwendet werden?
Ich benutze TensorFlow für Experimente hauptsächlich mit neuronalen Netzen. Obwohl ich bereits einige Experimente durchgeführt habe (XOR-Problem, MNIST, einiges an Regression, ...), habe ich Schwierigkeiten, die "richtige" Kostenfunktion für bestimmte Probleme zu wählen, da ich insgesamt als Anfänger gelten könnte. Bevor ich zu TensorFlow kam, habe ich einige vollständig verbundene …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.