Als «k-nearest-neighbour» getaggte Fragen

k-Nearest-Neighbor-Klassifizierer Diese Klassifizierer sind speicherbasiert und erfordern kein Modell, um angepasst zu werden. Wenn ein Abfragepunkt x0 gegeben ist, finden wir die k Trainingspunkte x (r), r = 1, ..., k, die in der Entfernung von x0 am nächsten liegen, und klassifizieren dann unter Verwendung der Mehrheitsabstimmung unter den k Nachbarn.


2
Wie zeichnet man die Entscheidungsgrenze eines k-Nächsten-Nachbarn-Klassifikators aus Elementen des statistischen Lernens?
Ich möchte die Handlung erzeugen, die im Buch ElemStatLearn "Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. Zweite Ausgabe" von Trevor Hastie & Robert Tibshirani & Jerome Friedman beschrieben ist. Die Handlung ist: Ich frage mich, wie ich dieses genaue Diagramm in erzeugen kann. RBeachten Sie insbesondere die …

1
Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


3
Maschinelles Lernen kombinieren
Ich bin ein bisschen neu in Datamining / Maschinelles Lernen / etc. und haben über ein paar Möglichkeiten gelesen, mehrere Modelle und Läufe desselben Modells zu kombinieren, um Vorhersagen zu verbessern. Mein Eindruck beim Lesen einiger Artikel (die oft interessant und großartig in Bezug auf Theorie und griechische Buchstaben, aber …

2
Wann ist „Nächster Nachbar“ heute sinnvoll?
1999 stellten Beyer et al. gefragt, wann ist "Nächster Nachbar" sinnvoll? Gibt es seit 1999 bessere Möglichkeiten zur Analyse und Visualisierung der Auswirkung der Abstandsflachheit auf die NN-Suche? Bietet [ein gegebener] Datensatz aussagekräftige Antworten auf das 1-NN-Problem? Das 10-NN-Problem? Das 100-NN-Problem? Wie würden Sie Experten diese Frage heute angehen? Änderungen …

1
k-NN Rechenkomplexität
Was ist die zeitliche Komplexität des k -NN-Algorithmus mit naivem Suchansatz (kein kd-Baum oder ähnliches)? Mich interessiert die zeitliche Komplexität auch unter Berücksichtigung des Hyperparameters k . Ich habe widersprüchliche Antworten gefunden: O (nd + kn), wobei n die Kardinalität des Trainingssatzes und d die Dimension jeder Stichprobe ist. [1] …


3
Auswahl des optimalen K für KNN
Ich habe einen 5-fachen Lebenslauf durchgeführt, um das optimale K für KNN auszuwählen. Und es scheint, je größer K wird, desto kleiner wird der Fehler ... Es tut mir leid, dass ich keine Legende hatte, aber die verschiedenen Farben repräsentieren verschiedene Versuche. Insgesamt gibt es 5, und es scheint, als …

2
Warum müssen Sie Daten in KNN skalieren?
Könnte mir bitte jemand erklären, warum Sie Daten normalisieren müssen, wenn Sie K nächste Nachbarn verwenden. Ich habe versucht, dies nachzuschlagen, aber ich kann es immer noch nicht verstehen. Ich habe folgenden Link gefunden: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Aber in dieser Erklärung verstehe ich nicht, warum ein größerer Bereich in einem der Merkmale …

1
Wirkt sich der Fluch der Dimensionalität auf einige Modelle stärker aus als auf andere?
Die Stellen, die ich über den Fluch der Dimensionalität gelesen habe, erklären ihn hauptsächlich in Verbindung mit kNN und linearen Modellen im Allgemeinen. Ich sehe regelmäßig Spitzenreiter in Kaggle, die Tausende von Funktionen in einem Datensatz verwenden, der kaum 100.000 Datenpunkte enthält. Sie verwenden unter anderem hauptsächlich Boosted-Bäume und NN. …

5
KNN Imputation R-Pakete
Ich suche ein KNN-Anrechnungspaket. Ich habe mir das Imputationspaket angesehen ( http://cran.r-project.org/web/packages/imputation/imputation.pdf) ) angesehen, aber aus irgendeinem Grund scheint die KNN-Impute-Funktion (auch wenn dem Beispiel aus der Beschreibung folge) nur zu funktionieren Nullwerte zu unterstellen (wie unten). Ich habe mich umgesehen, kann aber noch nichts finden und habe mich daher …

4
Umgang mit Krawatten, Gewichten und Abstimmungen in kNN
Ich programmiere einen kNN-Algorithmus und möchte Folgendes wissen: Unentschieden: Was passiert, wenn bei der Mehrheitsabstimmung kein eindeutiger Gewinner feststeht? ZB sind alle k nächsten Nachbarn aus verschiedenen Klassen, oder für k = 4 gibt es 2 Nachbarn aus Klasse A und 2 Nachbarn aus Klasse B? Was passiert, wenn es …

3
Adaptive Kernel-Dichteschätzer?
Kann jemand über seine Erfahrungen mit einem adaptiven Kernel-Dichteschätzer berichten? (Es gibt viele Synonyme: adaptive | variable | variable-width, KDE | histogram | interpolator ...) Die variable Schätzung der Kerneldichte besagt, dass "wir die Breite des Kernels in verschiedenen Regionen des Probenraums variieren. Es gibt zwei Methoden ..." tatsächlich mehr: …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.