Als «data-mining» getaggte Fragen

Data Mining verwendet Methoden der künstlichen Intelligenz in einem Datenbankkontext, um bisher unbekannte Muster zu ermitteln. Daher sind die Methoden normalerweise unbeaufsichtigt. Es ist eng verwandt, aber nicht identisch mit maschinellem Lernen. Hauptaufgaben des Data Mining sind die Clusteranalyse, die Erkennung von Ausreißern und das Mining von Zuordnungsregeln.

3
Sind Random Forest und Boosting parametrisch oder nicht parametrisch?
Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen. Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen …

2
Wie weit bringt mich das Selbststudium?
Ich habe noch nie an einem offiziellen oder strukturierten Kurs zur Datenanalyse oder zum maschinellen Lernen (mit Ausnahme der neuesten Online-Angebote) teilgenommen und das meiste gelernt, was ich aus dem Lesen und Ausprobieren weiß. Ich weiß, dass ich weit davon entfernt bin, einen Job zu bekommen. Meine Frage ist nicht, …

2
Mathematik hinter Klassifikations- und Regressionsbäumen
Kann jemand helfen, einige der Mathematik hinter der Klassifizierung in CART zu erklären? Ich möchte verstehen, wie zwei Hauptphasen ablaufen. Zum Beispiel habe ich einen CART-Klassifikator für ein Dataset trainiert und ein Test-Dataset verwendet, um die prädiktive Leistung zu kennzeichnen, aber: Wie wird die ursprüngliche Wurzel des Baumes gewählt? Warum …


4
Wie fange ich an, über Data Mining zu lesen?
Ich bin ein Anfänger, der anfangen wird, über Data Mining zu lesen. Ich habe Grundkenntnisse in KI und Statistik. Da viele sagen, dass maschinelles Lernen auch beim Data Mining eine wichtige Rolle spielt, ist es notwendig, sich mit maschinellem Lernen zu befassen, bevor ich mit dem Data Mining fortfahren kann?

2
Explorative Analyse von räumlich-zeitlichen Prognosefehlern
Die Daten: Ich habe kürzlich an der Analyse der stochastischen Eigenschaften eines räumlich-zeitlichen Feldes von Prognosefehlern für die Windkraftproduktion gearbeitet. Formal kann man sagen, dass es sich um einen Prozess handelt zweimal in der Zeit (mittundh) und einmal im Raum (p)indiziert,wobeiHdie Anzahl der Vorausschauzeiten ist (entspricht etwa24, regelmäßig abgetastet),Tdie Anzahl …

3
Muss ich korrelierte / kollineare Variablen löschen, bevor ich kmeans laufen lasse?
Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …

4
Beste Möglichkeiten zum Aggregieren und Analysieren von Daten
Ich habe gerade erst angefangen, mir Maschinelles Lernen und Datenanalyse beizubringen, und stoße auf eine Mauer, in der es darum geht, große Datenmengen zu erstellen und abzufragen. Ich möchte Daten, die ich in meinem beruflichen und privaten Leben gesammelt habe, aufgreifen und analysieren, bin mir jedoch nicht sicher, wie ich …


3
Die Idee, die Daten zu erstellen, hat einen Mittelwert von Null
Ich sehe oft Leute, die eine Dimension / ein Feature eines Datensatzes auf einen Mittelwert von Null setzen, indem sie den Mittelwert aus allen Elementen entfernen. Aber ich habe nie verstanden, warum das so ist? Was bewirkt dies als Vorverarbeitungsschritt? Verbessert es die Klassifizierungsleistung? Hilft es, etwas über den Datensatz …



1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Wie erstelle ich eine Precision-Recall-Kurve, wenn ich nur einen Wert für PR habe?
Ich habe eine Data Mining-Aufgabe, bei der ich ein inhaltsbasiertes Bildabrufsystem erstelle. Ich habe 20 Bilder von 5 Tieren. Also insgesamt 100 Bilder. Mein System gibt die 10 relevantesten Bilder an ein Eingabebild zurück. Jetzt muss ich die Leistung meines Systems mit einer Precision-Recall-Kurve bewerten. Ich verstehe jedoch das Konzept …

1
Beziehung zwischen der Hessischen Matrix und der Kovarianzmatrix
Während ich die Maximum-Likelihood-Schätzung studiere, müssen wir die Varianz kennen, um Rückschlüsse auf die Maximum-Likelihood-Schätzung zu ziehen. Um die Varianz herauszufinden, muss ich die untere Grenze des Cramer-Rao kennen, die wie eine hessische Matrix mit zweiter Ableitung auf der Krümmung aussieht. Ich bin irgendwie durcheinander, um die Beziehung zwischen Kovarianzmatrix …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.