Ich weiß, dass Spark vollständig in Scala integriert ist. Der Anwendungsfall ist speziell für große Datenmengen. Welche anderen Tools unterstützen Scala? Ist Scala am besten für größere Datensätze geeignet? Oder eignet es sich auch für kleinere Datensätze?
Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …
Ich habe von vielen Tools / Frameworks gehört, die Menschen bei der Verarbeitung ihrer Daten unterstützen (Big Data-Umgebung). Einer heißt Hadoop und der andere ist das noSQL-Konzept. Was ist der Unterschied in der Verarbeitung? Ergänzen sie sich?
Ich habe Geoff Hintons Kurs über Neuronale Netze auf Coursera durchlaufen und auch die Einführung in eingeschränkte Boltzmann-Maschinen durchlaufen. Dennoch habe ich die Intuition hinter RBMs nicht verstanden. Warum müssen wir in dieser Maschine Energie berechnen? Und was nützt die Wahrscheinlichkeit in dieser Maschine? Ich habe auch dieses Video gesehen …
Wird mein LSTM überarbeitet, wenn ich es mit dem Schiebefenster trainiere? Warum scheinen die Leute es nicht für LSTMs zu verwenden? Für ein vereinfachtes Beispiel nehmen wir an, dass wir die Zeichenfolge vorhersagen müssen: A B C D E F G H I J K L M N O P …
Ich habe eine Lösung des Wohnungspreiswettbewerbs auf Kaggle ( Human Analogs Kernel on House Prices: Advance Regression Techniques ) durchlaufen und bin auf diesen Teil gestoßen : # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew …
K-means ist ein bekannter Algorithmus zum Clustering, aber es gibt auch eine Online-Variante eines solchen Algorithmus (online K-means). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt werden?
Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …
Wenn Sie die Zugriffsdaten für die Website im Formular session_id, ip, user_agentund optional den Zeitstempel gemäß den folgenden Bedingungen angegeben haben, wie würden Sie die Sitzungen am besten zu eindeutigen Besuchern zusammenfassen? session_id: ist ein Ausweis, der jedem neuen Besucher ausgehändigt wird. Es verfällt jedoch nicht, wenn der Benutzer keine …
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Die data.table-Benchmarks wurden seit 2014 nicht mehr aktualisiert. Ich habe gehört, dass sie Pandasjetzt schneller sind als data.table. Ist das wahr? Hat jemand irgendwelche Benchmarks gemacht? Ich habe Python noch nie benutzt, würde aber überlegen zu wechseln, ob ich pandasschlagen kann data.table?
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie für Data Science Stack Exchange zum Thema gehört . Geschlossen vor 5 Jahren . Ich hatte kürzlich ein Gespräch mit jemandem und erwähnte mein Interesse an …
Gibt es ein umfassendes Open Source-Paket (vorzugsweise in Python oder R), das zur Erkennung von Anomalien in Zeitreihen verwendet werden kann? In scikit-learn gibt es ein SVM-Paket für eine Klasse, das jedoch nicht für Zeitreihendaten bestimmt ist. Ich suche nach komplexeren Paketen, die beispielsweise Bayes'sche Netzwerke zur Erkennung von Anomalien …
Ich verwende derzeit XGBoost zur Risikoprognose. Es scheint in der Abteilung für binäre Klassifizierung gute Arbeit zu leisten, aber die Wahrscheinlichkeitsausgaben sind weit davon entfernt, dh eine Änderung des Werts eines Merkmals in einer Beobachtung um einen sehr kleinen Betrag kann die Wahrscheinlichkeit erhöhen Ausgangssprung von 0,5 auf 0,99. Ich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.