Ich habe (~ eine Million) Merkmalsvektoren. Es gibt (~ eine Million) binäre Merkmale, aber in jedem Vektor wären nur (~ tausend) von ihnen , der Rest ist . Ich suche nach Vektorpaaren, die mindestens (~ hundert) Merkmale gemeinsam haben ( in beiden). Die Anzahl solcher Paare ist ähnlich groß wie …
Ich bin ziemlich neu in der Statistik (eine Handvoll Uni-Kurse für Anfänger) und habe mich über Stichproben aus unbekannten Distributionen gewundert. Wenn Sie keine Ahnung von der zugrunde liegenden Verteilung haben, gibt es eine Möglichkeit, zu "garantieren", dass Sie eine repräsentative Stichprobe erhalten? Beispiel zur Veranschaulichung: Angenommen, Sie versuchen, die …
Ich habe einen Wiki-Artikel über Apriori gelesen. Ich habe Probleme beim Verstehen des Pflaumen- und Join-Schritts. Kann mir jemand erklären, wie der Apriori-Algorithmus in einfachen Worten funktioniert (so dass Anfänger wie ich ihn leicht verstehen können)? Es ist gut, wenn jemand den damit verbundenen schrittweisen Prozess erklärt.
Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.
Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …
( Dies bezieht sich auf meine Programmierfrage zum Stapelüberlauf : Glockenkurven-Gauß-Algorithmus (Python und / oder C #) .) Auf Answers.com habe ich dieses einfache Beispiel gefunden: Finden Sie das arithmetische Mittel (Durchschnitt) => Summe aller Werte in der Menge, geteilt durch die Anzahl der Elemente in der Menge Finden Sie …
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …
Richtlinien- und Wertiterationsalgorithmen können verwendet werden, um Markov-Entscheidungsprozessprobleme zu lösen. Es fällt mir schwer, die notwendigen Bedingungen für die Konvergenz zu verstehen. Wenn sich die optimale Richtlinie in zwei Schritten (dh während der Iterationen i und i + 1 ) nicht ändert , kann daraus geschlossen werden, dass die Algorithmen …
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
Vorgeschlagene Methode: Bei einer Zeitreihe möchte ich einen gewichteten gleitenden Durchschnitt mit einem Mittelungsfenster von Punkten berechnen , wobei die Gewichtungen neuere Werte gegenüber älteren Werten bevorzugen. N.xichxix_iN.NN Bei der Auswahl der Gewichte verwende ich die bekannte Tatsache, dass eine geometrische Reihe gegen 1 konvergiert, dh , vorausgesetzt, es werden …
In ESL , Abschnitt 9.7, gibt es einen Absatz, der besagt, dass die Berechnungszeit einer Aufteilung beim Wachstum eines Klassifizierungs- (oder Regressions-) Baums typischerweise wie skaliert, wobei die Anzahl der Prädiktoren und die Anzahl von ist Proben.p N.pNlogNpNlogNp N \log NpppNNN Ein naiver Ansatz führt zu einer Skalierung, und ich …
Eines der wichtigsten Probleme bei der Verwendung der Faktoranalyse ist ihre Interpretation. Die Faktoranalyse verwendet häufig eine Faktorrotation, um ihre Interpretation zu verbessern. Nach einer zufriedenstellenden Drehung hat die gedrehte Faktorladematrix L ' die gleiche Fähigkeit, die Korrelationsmatrix darzustellen, und sie kann anstelle der nicht gedrehten Matrix L als Faktorladematrix …
Angenommen, ich habe diese gruppierten Daten als Eingabe. Der Durchschnittswert wird für jedes aufeinanderfolgende Intervall angegeben. Nehmen wir zur Vereinfachung an, dass die Abtastdichte in jedem Bin einheitlich ist.y¯ichy¯i\bar{y}_iΔxichΔxi\Delta x_i Jetzt möchte ich die zugrunde liegende Funktion ( ) schätzen, dh ich möchte in der Lage sein, vernünftige Schätzungen von …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.