Als «data-mining» getaggte Fragen

Data Mining verwendet Methoden der künstlichen Intelligenz in einem Datenbankkontext, um bisher unbekannte Muster zu ermitteln. Daher sind die Methoden normalerweise unbeaufsichtigt. Es ist eng verwandt, aber nicht identisch mit maschinellem Lernen. Hauptaufgaben des Data Mining sind die Clusteranalyse, die Erkennung von Ausreißern und das Mining von Zuordnungsregeln.


5
Maßnahme im Data Mining aufheben
Ich habe viele Websites durchsucht, um zu wissen, was Lift genau bewirkt. Die Ergebnisse, die ich gefunden habe, handelten von der Verwendung in Anwendungen, die sich nicht von selbst unterscheiden. Ich kenne die Unterstützungs- und Vertrauensfunktion. Laut Wikipedia ist Lift beim Data Mining ein Maß für die Leistung eines Modells …

5
Denken Sie wie ein Bayesianer, überprüfen Sie wie ein Frequentist: Was bedeutet das?
Ich schaue mir einige Vorlesungsfolien zu einem datenwissenschaftlichen Kurs an, die hier zu finden sind: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Ich kann das Video für diesen Vortrag leider nicht sehen und an einer Stelle auf der Folie hat der Vortragende den folgenden Text: Einige Grundprinzipien Denken Sie wie ein Bayesianer, überprüfen Sie wie ein …

3
Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?
Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 




8
Welche mathematischen Fächer würden Sie vorschlagen, um sich auf Data Mining und maschinelles Lernen vorzubereiten?
Ich versuche, ein selbstgesteuertes Mathematik-Curriculum zusammenzustellen, um mich auf das Erlernen von Data Mining und maschinellem Lernen vorzubereiten. Dies ist darauf zurückzuführen , dass ich Andrew Ngs Maschinenlernkurs in Coursera begonnen habe und das Gefühl hatte, dass ich meine mathematischen Fähigkeiten verbessern musste, bevor ich weitermachen konnte. Ich habe vor …

2
Warum sind p-Werte nach einer schrittweisen Auswahl irreführend?
Betrachten wir zum Beispiel ein lineares Regressionsmodell. Ich habe gehört, dass es beim Data Mining nach einer schrittweisen Auswahl auf der Grundlage des AIC-Kriteriums irreführend ist, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist. Ich habe gehört, dass man alle Variablen, die im …

1
Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen
Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen Schwerpunkt der nächste ist. Dann werden alle Zentroide neu berechnet. Im sphärischen k-Mittel sind alle …

9
Software-Tools für Statistik und Data Mining für den Umgang mit großen Datenmengen
Derzeit muss ich ungefähr 20 Millionen Datensätze analysieren und Vorhersagemodelle erstellen. Bisher habe ich Statistica, SPSS, RapidMiner und R ausprobiert. Unter diesen scheint Statistica am besten für das Data Mining geeignet zu sein, und die RapidMiner-Benutzeroberfläche ist ebenfalls sehr praktisch, aber es scheint, dass Statistica, RapidMiner und SPSS nur für …


3
LSA vs. PCA (Dokumentenclustering)
Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären. Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die SVD-Zerlegung auf die Term-Kovarianz-Matrix angewendet wird, …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.