Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

4
Data Science Tools mit Scala
Ich weiß, dass Spark vollständig in Scala integriert ist. Der Anwendungsfall ist speziell für große Datenmengen. Welche anderen Tools unterstützen Scala? Ist Scala am besten für größere Datensätze geeignet? Oder eignet es sich auch für kleinere Datensätze?

4
Wie spezifiziere ich wichtige Attribute?
Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …


3
Intuition hinter der eingeschränkten Boltzmann-Maschine (RBM)
Ich habe Geoff Hintons Kurs über Neuronale Netze auf Coursera durchlaufen und auch die Einführung in eingeschränkte Boltzmann-Maschinen durchlaufen. Dennoch habe ich die Intuition hinter RBMs nicht verstanden. Warum müssen wir in dieser Maschine Energie berechnen? Und was nützt die Wahrscheinlichkeit in dieser Maschine? Ich habe auch dieses Video gesehen …





2
K-Means vs. Online K-Means
K-means ist ein bekannter Algorithmus zum Clustering, aber es gibt auch eine Online-Variante eines solchen Algorithmus (online K-means). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt werden?

5
Satzähnlichkeitsvorhersage
Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …

2
Gruppieren eindeutiger Besucher nach Useragent, IP, Sitzungs-ID
Wenn Sie die Zugriffsdaten für die Website im Formular session_id, ip, user_agentund optional den Zeitstempel gemäß den folgenden Bedingungen angegeben haben, wie würden Sie die Sitzungen am besten zu eindeutigen Besuchern zusammenfassen? session_id: ist ein Ausweis, der jedem neuen Besucher ausgehändigt wird. Es verfällt jedoch nicht, wenn der Benutzer keine …
15 clustering 

4
Ist Pandas jetzt schneller als data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Die data.table-Benchmarks wurden seit 2014 nicht mehr aktualisiert. Ich habe gehört, dass sie Pandasjetzt schneller sind als data.table. Ist das wahr? Hat jemand irgendwelche Benchmarks gemacht? Ich habe Python noch nie benutzt, würde aber überlegen zu wechseln, ob ich pandasschlagen kann data.table?
15 python  r  pandas  data  data.table 




Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.