Als «similarity» getaggte Fragen


4
Anwendungen und Unterschiede für Jaccard-Ähnlichkeit und Cosinus-Ähnlichkeit
Jaccard-Ähnlichkeit und Cosinus-Ähnlichkeit sind zwei sehr häufige Messungen beim Vergleichen von Artikelähnlichkeiten. Ich bin mir jedoch nicht ganz sicher, in welcher Situation eine der anderen vorzuziehen ist. Kann jemand helfen, die Unterschiede zwischen diesen beiden Messungen (der Unterschied im Konzept oder Prinzip, nicht in der Definition oder Berechnung) und ihren …
27 similarity 

5
Bester praktischer Algorithmus für Satzähnlichkeit
Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so kompliziert wie Google Inception usw.). Ich suche einen …


5
Vergrößere die seaborn Heatmap
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Satzähnlichkeitsvorhersage
Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …

4
Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate
Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code wie folgt: 1) Verarbeiten Sie den Text jeder Stellenanzeige, …

1
MinHashing vs SimHashing
Angenommen, ich habe fünf Gruppen, die ich gruppieren möchte. Ich verstehe, dass die hier beschriebene SimHashing-Technik: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ergeben könnte drei Cluster ( {A}, {B,C,D}und {E}), zum Beispiel, wenn seine Ergebnisse sind: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Ebenso die in Kapitel …

3
Vektorraummodell cosine tf-idf zum Auffinden ähnlicher Dokumente
Haben Sie Korpus von über Millionen Dokumenten Für ein bestimmtes Dokument möchten Sie ähnliche Dokumente mit Cosinus wie im Vektorraummodell finden d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Alle tf wurden mit erhöhter Frequenz normalisiert, um eine Tendenz zu längeren Dokumenten wie in diesem tf-idf zu vermeiden : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): …

2
Extrahieren Sie kanonische Zeichenfolgen aus einer Liste von lauten Zeichenfolgen
Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. …

3

2
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
Beheben von Dateninkonsistenzen
Ich versuche, einige meiner Daten zu analysieren, aber meine Daten weisen viele Inkonsistenzen auf. Ich habe eine SQL-Tabelle, die ich analysieren möchte. Die Tabelle ist eine Tabelle von Universitäten mit folgender Struktur: name:string, city:string, state:string, country:string Name ist immer vorhanden, jedoch können Stadt, Bundesland, Land fehlen. Mein Hauptproblem ist, dass …

3
So finden Sie Ähnlichkeiten zwischen verschiedenen Faktoren in einem Datensatz
Einführung Angenommen, ich habe einen Datensatz mit unterschiedlichen Beobachtungen verschiedener Personen und möchte Personen zusammenfassen, um zu wissen, welche Person der anderen am nächsten ist. Ich möchte auch ein Maß dafür haben, wie nahe sie beieinander sind und welche statistische Signifikanz sie haben. Daten eat_rate drink_rate sleep_rate play_rate name game …

3
Ähnlichkeit der Score-Matrix-Zeichenfolge
Ich habe eine Menge Dokumente, die eine Menge Schlüsselwertpaare enthalten. Der Schlüssel ist möglicherweise nicht eindeutig, sodass möglicherweise mehrere Schlüssel desselben Typs mit unterschiedlichen Werten vorhanden sind. Ich möchte die Ähnlichkeit der Schlüssel zwischen 2 Dokumenten vergleichen. Insbesondere die String-Ähnlichkeit dieser Werte. Ich denke darüber nach, so etwas wie den …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.