Data Science

4

Ich weiß, dass Spark vollständig in Scala integriert ist. Der Anwendungsfall ist speziell für große Datenmengen. Welche anderen Tools unterstützen Scala? Ist Scala am besten für größere Datensätze geeignet? Oder eignet es sich auch für kleinere Datensätze?

15 scalability scala

4

Wie spezifiziere ich wichtige Attribute?

Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …

15 machine-learning statistics feature-selection

2

Was ist der Unterschied zwischen Hadoop und noSQL?

Ich habe von vielen Tools / Frameworks gehört, die Menschen bei der Verarbeitung ihrer Daten unterstützen (Big Data-Umgebung). Einer heißt Hadoop und der andere ist das noSQL-Konzept. Was ist der Unterschied in der Verarbeitung? Ergänzen sie sich?

15 nosql tools processing apache-hadoop

3

Intuition hinter der eingeschränkten Boltzmann-Maschine (RBM)

Ich habe Geoff Hintons Kurs über Neuronale Netze auf Coursera durchlaufen und auch die Einführung in eingeschränkte Boltzmann-Maschinen durchlaufen. Dennoch habe ich die Intuition hinter RBMs nicht verstanden. Warum müssen wir in dieser Maschine Energie berechnen? Und was nützt die Wahrscheinlichkeit in dieser Maschine? Ich habe auch dieses Video gesehen …

15 unsupervised-learning rbm

2

Was ist der Unterschied zwischen fit () und fit_generator () in Keras?

Was ist der Unterschied zwischen fit()und fit_generator()in Keras? Wann sollte ich fit()vs verwenden fit_generator()?

15 deep-learning keras

2

Schiebefenster führt zu Überanpassung bei LSTM?

Wird mein LSTM überarbeitet, wenn ich es mit dem Schiebefenster trainiere? Warum scheinen die Leute es nicht für LSTMs zu verwenden? Für ein vereinfachtes Beispiel nehmen wir an, dass wir die Zeichenfolge vorhersagen müssen: A B C D E F G H I J K L M N O P …

15 lstm backpropagation mini-batch-gradient-descent

3

Warum konvertieren wir verzerrte Daten in eine Normalverteilung?

Ich habe eine Lösung des Wohnungspreiswettbewerbs auf Kaggle ( Human Analogs Kernel on House Prices: Advance Regression Techniques ) durchlaufen und bin auf diesen Teil gestoßen : # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew …

15 regression feature-extraction feature-engineering kaggle feature-scaling

1

Entfernen von Zeichenfolgen nach einem bestimmten Zeichen in einem bestimmten Text

Ich habe einen Datensatz wie den folgenden. Ich möchte alle Zeichen nach dem Zeichen © entfernen. Wie kann ich das in R machen? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

2

K-Means vs. Online K-Means

K-means ist ein bekannter Algorithmus zum Clustering, aber es gibt auch eine Online-Variante eines solchen Algorithmus (online K-means). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt werden?

15 clustering algorithms k-means

5

Satzähnlichkeitsvorhersage

Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …

15 python nlp scikit-learn similarity text

2

Gruppieren eindeutiger Besucher nach Useragent, IP, Sitzungs-ID

Wenn Sie die Zugriffsdaten für die Website im Formular session_id, ip, user_agentund optional den Zeitstempel gemäß den folgenden Bedingungen angegeben haben, wie würden Sie die Sitzungen am besten zu eindeutigen Besuchern zusammenfassen? session_id: ist ein Ausweis, der jedem neuen Besucher ausgehändigt wird. Es verfällt jedoch nicht, wenn der Benutzer keine …

15 clustering

4

Ist Pandas jetzt schneller als data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Die data.table-Benchmarks wurden seit 2014 nicht mehr aktualisiert. Ich habe gehört, dass sie Pandasjetzt schneller sind als data.table. Ist das wahr? Hat jemand irgendwelche Benchmarks gemacht? Ich habe Python noch nie benutzt, würde aber überlegen zu wechseln, ob ich pandasschlagen kann data.table?

15 python r pandas data data.table

2

Data Science ohne Kenntnis eines bestimmten Themas, lohnt es sich, beruflich tätig zu werden? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie für Data Science Stack Exchange zum Thema gehört . Geschlossen vor 5 Jahren . Ich hatte kürzlich ein Gespräch mit jemandem und erwähnte mein Interesse an …

15 education beginner career

3

Auf der Suche nach einem guten Paket zur Erkennung von Anomalien in Zeitreihen

Gibt es ein umfassendes Open Source-Paket (vorzugsweise in Python oder R), das zur Erkennung von Anomalien in Zeitreihen verwendet werden kann? In scikit-learn gibt es ein SVM-Paket für eine Klasse, das jedoch nicht für Zeitreihendaten bestimmt ist. Ich suche nach komplexeren Paketen, die beispielsweise Bayes'sche Netzwerke zur Erkennung von Anomalien …

15 python time-series anomaly-detection

4

XGBoost-Ausgänge tendieren zu den Extremen

Ich verwende derzeit XGBoost zur Risikoprognose. Es scheint in der Abteilung für binäre Klassifizierung gute Arbeit zu leisten, aber die Wahrscheinlichkeitsausgaben sind weit davon entfernt, dh eine Änderung des Werts eines Merkmals in einer Beobachtung um einen sehr kleinen Betrag kann die Wahrscheinlichkeit erhöhen Ausgangssprung von 0,5 auf 0,99. Ich …

15 machine-learning classification xgboost probability probability-calibration