Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

2
Deep Learning für Nicht-Image-Nicht-NLP-Aufgaben?
Bisher gibt es viele interessante Anwendungen für tiefes Lernen in der Bildverarbeitung oder der Verarbeitung natürlicher Sprache. Wie ist es in anderen traditionelleren Bereichen? Zum Beispiel habe ich traditionelle soziodemografische Variablen sowie möglicherweise viele Labormessungen und möchte eine bestimmte Krankheit vorhersagen. Wäre dies eine Deep-Learning-Anwendung, wenn ich viele Beobachtungen habe? …

1
Wie viele LSTM-Zellen soll ich verwenden?
Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Wie berechnet man die VC-Dimension?
Ich studiere maschinelles Lernen und möchte wissen, wie man die VC-Dimension berechnet. Zum Beispiel: h ( x ) = { 10wenn a≤x≤bsonst h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ( a , b ) ∈ R 2 mit den Parametern .( …


4
Importieren Sie den Inhalt der CSV-Datei in pyspark-Datenrahmen
Wie kann ich eine CSV-Datei in pyspark-Datenrahmen importieren? Ich habe sogar versucht, eine CSV-Datei in Pandas zu lesen und sie dann mit createDataFrame in einen Spark-Datenrahmen zu konvertieren, aber es wird immer noch ein Fehler angezeigt. Kann mich jemand durch das führen? Bitte sagen Sie mir auch, wie ich eine …
12 pyspark 

2
Wie füge ich zwei Datenrahmen in Python Pandas zusammen?
Ich habe zwei Datenrahmen df1 und df2 und möchte sie zu einem einzigen Datenrahmen zusammenführen. Es ist, als ob df1 und df2 durch vertikales Teilen eines einzelnen Datenrahmens in der Mitte erstellt wurden, als würde ein Stück Papier, das eine Liste enthält, in zwei Hälften zerrissen, sodass die Hälfte der …
12 pandas 

2
Wird FPGrowth im häufigen Pattern Mining immer noch als „State of the Art“ angesehen?
Soweit ich die Entwicklung von Algorithmen zur Lösung des FPM-Problems (Frequent Pattern Mining) kenne, gibt es auf dem Weg der Verbesserungen einige Hauptkontrollpunkte. Erstens wurde der Apriori- Algorithmus 1993 von Agrawal et al. zusammen mit der Formalisierung des Problems. Der Algorithmus konnte Strip-Off einige Sätze aus den 2^n - 1Sätzen …

2
Effiziente Dimensionsreduzierung für große Datenmengen
Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen …

3
Abfrage von natürlicher Sprache zu SQL
Ich habe an der Entwicklung eines Systems "Konvertieren natürlicher Sprache in SQL-Abfrage" gearbeitet. Ich habe die Antworten aus ähnlichen Fragen gelesen, konnte jedoch nicht die gesuchten Informationen abrufen. Unten ist das Flussdiagramm für ein solches System, das ich von einem Algorithmus zur Umwandlung natürlicher Sprache in SQL-Abfragen für relationale Datenbanken …

2
Wie wenden Sie SMOTE auf die Textklassifizierung an?
Die Synthetic Minority Oversampling-Technik (SMOTE) ist eine Oversampling-Technik, die bei einem unausgeglichenen Datensatzproblem verwendet wird. Bisher habe ich eine Idee, wie ich es auf generische, strukturierte Daten anwenden kann. Aber ist es möglich, es auf das Problem der Textklassifizierung anzuwenden? Welchen Teil der Daten müssen Sie überabtasten? Es gibt bereits …

4
Eine Hot-Coding-Alternative für große kategoriale Werte?
Hallo, Datenrahmen mit großen kategorialen Werten über 1600 Kategorien gibt es eine Möglichkeit, Alternativen zu finden, damit ich nicht über 1600 Spalten habe. Ich fand diesen unten interessanten Link http://amunategui.github.io/feature-hashing/#sourcecode Aber sie konvertieren zu Klasse / Objekt, was ich nicht will. Ich möchte meine endgültige Ausgabe als Datenrahmen, damit ich …

3
Ersetzen Sie alle numerischen Werte in einem Pyspark-Datenrahmen durch einen konstanten Wert
Stellen Sie sich einen Pyspark-Datenrahmen vor, der aus 'Null'-Elementen und numerischen Elementen besteht. Im Allgemeinen haben die numerischen Elemente unterschiedliche Werte. Wie ist es möglich, alle numerischen Werte des Datenrahmens durch einen konstanten numerischen Wert zu ersetzen (zum Beispiel durch den Wert 1)? Danke im Voraus! Beispiel für den pyspark-Datenrahmen: …

3
Pandas Dataframe zu DMatrix
Ich versuche xgboost in scikit learn auszuführen. Und ich benutze Pandas nur, um Daten in den Datenrahmen zu laden. Wie soll ich pandas df mit xgboost verwenden? Ich bin verwirrt von der DMatrix-Routine, die zum Ausführen von xgboost algo erforderlich ist.



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.