Als «machine-learning» getaggte Fragen

Algorithmen für maschinelles Lernen erstellen ein Modell der Trainingsdaten. Der Begriff "maschinelles Lernen" ist vage definiert; Es umfasst das, was auch als statistisches Lernen, Bestärkungslernen, unbeaufsichtigtes Lernen usw. bezeichnet wird. Fügen Sie immer einen spezifischeren Tag hinzu.

1
Herleitung der Änderung von Variablen einer Wahrscheinlichkeitsdichtefunktion?
In dem Buch Mustererkennung und maschinelles Lernen (Formel 1.27) gibt es Dabei istx=g(y),px(x)das PDF, das inBezug auf die Änderung der Variablenpy(y)entspricht.py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) In den Büchern heißt es, dass Beobachtungen, die in den Bereich , für kleine Werte von δ x in …

4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Was sind einige gute Interviewfragen für Entwickler von statistischen Algorithmen?
Ich interviewe Leute für eine Position als Entwickler / Forscher von Algorithmen in einem Kontext von Statistik, maschinellem Lernen und Data Mining. Ich suche nach Fragen, um insbesondere die Vertrautheit, das Verständnis und die Fließfähigkeit eines Kandidaten mit der zugrunde liegenden Theorie zu bestimmen, z. B. grundlegende Eigenschaften von Erwartung …

2
Was bedeutet PAC-Lerntheorie?
Ich bin neu im maschinellen Lernen. Ich studiere einen Kurs in maschinellem Lernen (Stanford University) und habe nicht verstanden, was mit dieser Theorie gemeint ist und welchen Nutzen sie hat. Ich frage mich, ob jemand diese Theorie für mich detaillieren könnte. Diese Theorie basiert auf dieser Gleichung.

3
Wie wird beim Kneser-Ney-Glätten mit unsichtbaren Wörtern umgegangen?
Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} mit dem normalisierenden Faktor alsλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ ( wn - 1)= D∑w′C( wn - …

1
Thesaurus für Statistik und Maschinelles Lernen
Gibt es einen Referenzthesaurus für Statistiken und Begriffe des maschinellen Lernens? Ich weiß, dass Wikipedia-Artikel häufig Synonyme enthalten, aber ich hätte gerne einen bloßen Thesaurus, den ich einfach durchgehen könnte (im Gegensatz zu einer vollständigen Enzyklopädie), um sicherzustellen, dass ich den gesamten Jargon kenne.

3
Vorschläge für kostensensitives Lernen in einem sehr unausgewogenen Umfeld
Ich habe einen Datensatz mit einigen Millionen Zeilen und ~ 100 Spalten. Ich möchte ungefähr 1% der Beispiele im Datensatz erkennen, die zu einer gemeinsamen Klasse gehören. Ich habe eine minimale Genauigkeitsbeschränkung, aber aufgrund der sehr asymmetrischen Kosten bin ich nicht besonders an einem bestimmten Rückruf interessiert (solange mir nicht …

1
Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Bedeutung der Ausgabebegriffe im gbm-Paket?
Ich benutze das gbm-Paket zur Klassifizierung. Wie erwartet ist das Ergebnis gut. Aber ich versuche die Ausgabe des Klassifikators zu verstehen. Die Ausgabe enthält fünf Begriffe. `Iter TrainDeviance ValidDeviance StepSize Improve` Könnte jemand die Bedeutung jeden Begriff, vor allem die Bedeutung erklärt zu verbessern .

3
Was ist Datenmischung?
Dieser Begriff kommt häufig in methodenbezogenen Threads vor . Ist das Mischen eine bestimmte Methode für Data Mining und statistisches Lernen? Ich kann kein relevantes Ergebnis von Google erhalten. Es scheint, dass das Mischen die Ergebnisse vieler Modelle verwechselt und zu einem besseren Ergebnis führt. Gibt es eine Ressource, die …

5
Welchen Einfluss hat die Erhöhung der Trainingsdaten auf die Genauigkeit des Gesamtsystems?
Kann mir jemand mit möglichen Beispielen zusammenfassen, in welchen Situationen eine Erhöhung der Trainingsdaten das Gesamtsystem verbessert? Wann stellen wir fest, dass das Hinzufügen weiterer Trainingsdaten möglicherweise zu einer Überanpassung der Daten führt und die Testdaten nicht genau genug sind? Dies ist eine sehr unspezifische Frage. Wenn Sie sie jedoch …

2
Kombinieren Sie Klassifikatoren, indem Sie eine Münze werfen
Ich lerne einen maschinellen Lernkurs und die Vorlesungsfolien enthalten Informationen, die dem empfohlenen Buch widersprechen. Das Problem ist folgendes: Es gibt drei Klassifikatoren: Klassifikator A, der eine bessere Leistung im unteren Bereich der Schwellenwerte bietet, Klassifikator B, der eine bessere Leistung im höheren Bereich der Schwellenwerte bietet, Klassifikator C was …


2
Eine zunehmende Anzahl von Merkmalen führt zu einer Verringerung der Genauigkeit, jedoch zu einer Erhöhung des Vorlaufs / Rückrufs
Ich bin neu im maschinellen Lernen. Im Moment benutze ich einen Naive Bayes (NB) Klassifikator, um kleine Texte in 3 Klassen mit NLTK und Python als positiv, negativ oder neutral zu klassifizieren. Nach einigen Tests mit einem Datensatz von 300.000 Instanzen (16.924 positive, 7.477 negative und 275.599 neutrale) stellte ich …

5
Was ist eine gute Ressource, die einen Vergleich der Vor- und Nachteile verschiedener Klassifikatoren beinhaltet?
Was ist der beste 2-Klassen-Klassifikator? Ja, ich denke, das ist die Millionen-Dollar-Frage, und ja, mir ist das No-Free-Lunch-Theorem bekannt , und ich habe auch die vorherigen Fragen gelesen: Was ist der beste 2-Klassen-Klassifikator für Ihre Anwendung? und schlechtester Klassifikator Dennoch bin ich daran interessiert, mehr zu diesem Thema zu lesen. …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.