Data Science similarity

5

Was sind einige Standardmethoden zum Berechnen des Abstands zwischen Dokumenten?

Wenn ich "Dokument" sage, denke ich an Webseiten wie Wikipedia-Artikel und Nachrichten. Ich bevorzuge Antworten, die entweder lexikalische Entfernungsmetriken aus Vanille oder semantische Entfernungsmetriken nach dem neuesten Stand der Technik enthalten, wobei letztere stärker bevorzugt werden.

34 machine-learning data-mining nlp text-mining similarity

4

Anwendungen und Unterschiede für Jaccard-Ähnlichkeit und Cosinus-Ähnlichkeit

Jaccard-Ähnlichkeit und Cosinus-Ähnlichkeit sind zwei sehr häufige Messungen beim Vergleichen von Artikelähnlichkeiten. Ich bin mir jedoch nicht ganz sicher, in welcher Situation eine der anderen vorzuziehen ist. Kann jemand helfen, die Unterschiede zwischen diesen beiden Messungen (der Unterschied im Konzept oder Prinzip, nicht in der Definition oder Berechnung) und ihren …

27 similarity

5

Bester praktischer Algorithmus für Satzähnlichkeit

Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so kompliziert wie Google Inception usw.). Ich suche einen …

17 nlp clustering word2vec similarity

4

Clustering basierend auf Ähnlichkeitswerten

Es sei angenommen , dass wir eine Reihe von Elementen haben E und eine Ähnlichkeit ( nicht Abstand ) Funktion sim (ei, ej) zwischen zwei Elementen ei, ej ∈ E . Wie können wir die Elemente von E mit sim (effizient) clustern ? k - bedeutet zum Beispiel, dass ein …

17 clustering algorithms similarity

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Satzähnlichkeitsvorhersage

Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …

15 python nlp scikit-learn similarity text

4

Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate

Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code wie folgt: 1) Verarbeiten Sie den Text jeder Stellenanzeige, …

12 nlp text-mining similarity cosine-distance

1

MinHashing vs SimHashing

Angenommen, ich habe fünf Gruppen, die ich gruppieren möchte. Ich verstehe, dass die hier beschriebene SimHashing-Technik: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ergeben könnte drei Cluster ( {A}, {B,C,D}und {E}), zum Beispiel, wenn seine Ergebnisse sind: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Ebenso die in Kapitel …

12 clustering similarity

3

Vektorraummodell cosine tf-idf zum Auffinden ähnlicher Dokumente

Haben Sie Korpus von über Millionen Dokumenten Für ein bestimmtes Dokument möchten Sie ähnliche Dokumente mit Cosinus wie im Vektorraummodell finden d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Alle tf wurden mit erhöhter Frequenz normalisiert, um eine Tendenz zu längeren Dokumenten wie in diesem tf-idf zu vermeiden : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): …

10 text-mining similarity

2

Extrahieren Sie kanonische Zeichenfolgen aus einer Liste von lauten Zeichenfolgen

Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. …

10 nlp similarity information-retrieval

3

Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Beheben von Dateninkonsistenzen

Ich versuche, einige meiner Daten zu analysieren, aber meine Daten weisen viele Inkonsistenzen auf. Ich habe eine SQL-Tabelle, die ich analysieren möchte. Die Tabelle ist eine Tabelle von Universitäten mit folgender Struktur: name:string, city:string, state:string, country:string Name ist immer vorhanden, jedoch können Stadt, Bundesland, Land fehlen. Mein Hauptproblem ist, dass …

8 data-cleaning similarity distance

3

So finden Sie Ähnlichkeiten zwischen verschiedenen Faktoren in einem Datensatz

Einführung Angenommen, ich habe einen Datensatz mit unterschiedlichen Beobachtungen verschiedener Personen und möchte Personen zusammenfassen, um zu wissen, welche Person der anderen am nächsten ist. Ich möchte auch ein Maß dafür haben, wie nahe sie beieinander sind und welche statistische Signifikanz sie haben. Daten eat_rate drink_rate sleep_rate play_rate name game …

8 machine-learning r similarity correlation

3

Ähnlichkeit der Score-Matrix-Zeichenfolge

Ich habe eine Menge Dokumente, die eine Menge Schlüsselwertpaare enthalten. Der Schlüssel ist möglicherweise nicht eindeutig, sodass möglicherweise mehrere Schlüssel desselben Typs mit unterschiedlichen Werten vorhanden sind. Ich möchte die Ähnlichkeit der Schlüssel zwischen 2 Dokumenten vergleichen. Insbesondere die String-Ähnlichkeit dieser Werte. Ich denke darüber nach, so etwas wie den …

8 algorithms similarity

Als «similarity» getaggte Fragen