Statistiken und Big Data data-mining

5

Wie man die Nachteile von K-means versteht

K-means ist eine weit verbreitete Methode in der Clusteranalyse. Nach meinem Verständnis erfordert diese Methode KEINE Annahmen, dh, Sie geben mir einen Datensatz und eine vorgegebene Anzahl von Clustern, k, und ich wende nur diesen Algorithmus an, der die Summe der Fehlerquadrate (SSE) im Quadrat des Clusters minimiert Error. K-means …

365 machine-learning clustering data-mining k-means

12

Was ist der Unterschied zwischen Data Mining, Statistik, maschinellem Lernen und KI?

Was ist der Unterschied zwischen Data Mining, Statistik, maschinellem Lernen und KI? Wäre es richtig zu sagen, dass es sich um vier Bereiche handelt, die versuchen, sehr ähnliche Probleme mit unterschiedlichen Ansätzen zu lösen? Was genau haben sie gemeinsam und wo unterscheiden sie sich? Wenn es eine Art Hierarchie zwischen …

208 machine-learning data-mining

4

Cohens Kappa in einfachem Englisch

Ich lese gerade ein Data-Mining-Buch, in dem die Kappa-Statistik als Mittel zur Bewertung der Prognoseleistung von Klassifikatoren erwähnt wurde. Das kann ich aber einfach nicht verstehen. Ich habe auch Wikipedia überprüft, aber es hat auch nicht geholfen: https://en.wikipedia.org/wiki/Cohen's_kappa . Wie hilft Cohens Kappa bei der Bewertung der Vorhersageleistung von Klassifikatoren? …

131 classification data-mining cohens-kappa

9

Wissen aus einer zufälligen Gesamtstruktur abrufen

Zufällige Wälder gelten als Black Boxes, aber in letzter Zeit habe ich darüber nachgedacht, welches Wissen aus einem zufälligen Wald gewonnen werden kann. Das offensichtlichste ist die Wichtigkeit der Variablen. In der einfachsten Variante kann dies einfach durch Berechnen der Anzahl der Vorkommen einer Variablen erfolgen. Das zweite, woran ich …

127 machine-learning data-mining interaction random-forest cart

11

Ich habe einen Job im Data-Mining ohne einen Doktortitel

Ich habe mich eine Zeit lang sehr für Data-Mining und maschinelles Lernen interessiert , zum Teil, weil ich in der Schule einen Schwerpunkt in diesem Bereich hatte, aber auch, weil ich wirklich viel aufgeregter bin, Probleme zu lösen, die ein bisschen mehr Gedanken erfordern als nur Programmieren Wissen und dessen …

73 machine-learning data-mining careers phd

7

Euklidischer Abstand ist normalerweise nicht gut für spärliche Daten?

Ich habe irgendwo gesehen, dass klassische Entfernungen (wie die euklidische Entfernung) schwach diskriminierend werden, wenn wir mehrdimensionale und spärliche Daten haben. Warum? Haben Sie ein Beispiel für zwei spärliche Datenvektoren, bei denen die euklidische Distanz nicht gut funktioniert? In diesem Fall welche Ähnlichkeit sollten wir verwenden?

72 machine-learning clustering data-mining sparse euclidean

8

Fähigkeiten, die bei maschinellen Lernern schwer zu finden sind?

Es scheint, dass Data Mining und maschinelles Lernen so populär wurden, dass mittlerweile fast jeder CS-Student über Klassifikatoren, Clustering, statistische NLPs usw. Bescheid weiß. Meine Frage lautet: Welche Fähigkeiten könnte ein Data Miner erlernen, die ihn von den anderen unterscheiden? Ihn zu einer Person zu machen, die nicht so leicht …

71 machine-learning data-mining

8

Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.

Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

2

Warum nur drei Partitionen? (Training, Validierung, Test)

Wenn Sie versuchen, Modelle an ein großes Dataset anzupassen, besteht der allgemeine Rat darin, die Daten in drei Teile zu unterteilen: das Training, die Validierung und das Test-Dataset. Dies liegt daran, dass die Modelle normalerweise drei "Parameterebenen" haben: Der erste "Parameter" ist die Modellklasse (z. B. SVM, neuronales Netzwerk, zufällige …

61 machine-learning model-selection data-mining

12

Software, die benötigt wird, um Daten aus dem Diagramm zu entfernen [geschlossen]

Hat jemand Erfahrung mit Software (am besten kostenlos, am besten Open Source), die ein Bild von Daten aufnimmt, die auf kartesischen Koordinaten aufgezeichnet sind (ein normaler, alltäglicher Plot), und die Koordinaten der Punkte extrahiert, die in der Grafik aufgezeichnet sind? Dies ist im Wesentlichen ein Data-Mining-Problem und ein umgekehrtes Datenvisualisierungsproblem.

56 data-visualization data-mining software

8

Ist Stichproben in Zeiten von Big Data relevant?

Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen. Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden …

54 sampling data-mining large-data

3

Haben wir ein Problem mit „mitleidigen Gegenstimmen“?

Ich weiß, das klingt vielleicht nicht nach einem Thema, aber hör mir zu. Bei Stack Overflow und hier bekommen wir Stimmen für Beiträge, dies wird alles in tabellarischer Form gespeichert. Z.B: post id voter id vote type datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 …

51 time-series hypothesis-testing data-mining markov-process censoring

3

Clustering mit K-Means und EM: Wie hängen sie zusammen?

Ich habe Algorithmen zum Clustering von Daten (unbeaufsichtigtes Lernen) untersucht: EM und k-means. Ich lese ständig Folgendes: k-means ist eine Variante von EM mit der Annahme, dass Cluster sphärisch sind. Kann jemand den obigen Satz erklären? Ich verstehe nicht, was sphärisch bedeutet und wie kmeans und EM zusammenhängen, da der …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Leistungsmetriken zur Bewertung unbeaufsichtigten Lernens

Gibt es in Bezug auf unbeaufsichtigtes Lernen (wie Clustering) Metriken zur Bewertung der Leistung?

48 machine-learning clustering data-mining unsupervised-learning

3

Was sind die Unterschiede zwischen Hidden-Markov-Modellen und neuronalen Netzen?

Ich mache mich in Statistiken nur nass, also tut es mir leid, wenn diese Frage keinen Sinn ergibt. Ich habe Markov-Modelle verwendet, um versteckte Zustände (unfaire Casinos, Würfelwürfe usw.) und neuronale Netze vorherzusagen und die Klicks der Benutzer auf eine Suchmaschine zu untersuchen. Beide hatten verborgene Zustände, die wir mithilfe …

40 data-mining algorithms neural-networks markov-process

Als «data-mining» getaggte Fragen