Data Science text-mining

1

Wie kann man die Komplexität eines englischen Satzes bestimmen?

Ich arbeite an einer App, mit der Menschen Englisch als Zweitsprache lernen können. Ich habe bestätigt, dass Sätze beim Erlernen einer Sprache helfen, indem sie zusätzlichen Kontext bereitstellen. Ich habe das getan, indem ich eine kleine Recherche in einem Klassenzimmer mit 60 Schülern durchgeführt habe. Ich habe über hunderttausend Sätze …

10 machine-learning classification nlp text-mining

1

Wie viele Trainingsdaten benötigt word2vec?

Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als Klartext erwähnt wird In jedem Buch, ersetzen …

10 text-mining word-embeddings

3

Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Welche Techniken für maschinelles / tiefes Lernen / nlp werden verwendet, um ein bestimmtes Wort als Name, Handynummer, Adresse, E-Mail, Bundesstaat, Landkreis, Stadt usw. zu klassifizieren?

Ich versuche, ein intelligentes Modell zu generieren, das eine Reihe von Wörtern oder Zeichenfolgen scannen und mithilfe von maschinellem Lernen oder Deep Learning als Namen, Handynummern, Adressen, Städte, Bundesstaaten, Länder und andere Einheiten klassifizieren kann. Ich hatte nach Ansätzen gesucht, aber leider keinen Ansatz gefunden. Ich hatte versucht, mit einer …

9 machine-learning deep-learning text-mining natural-language-process

4

Schlagen Sie Trainingsdatensätze für Textklassifizierer vor

Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren? Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer …

9 machine-learning classification dataset clustering text-mining

5

Clustering mit Kosinusähnlichkeit

Ich habe einen großen Datensatz und eine Kosinusähnlichkeit zwischen ihnen. Ich möchte sie mit Cosinus-Ähnlichkeit gruppieren, die ähnliche Objekte zusammenfügt, ohne vorher die Anzahl der erwarteten Cluster angeben zu müssen. Ich habe die sklearn-Dokumentation von DBSCAN und Affinity Propagation gelesen, in der beide eine Distanzmatrix (keine Kosinus-Ähnlichkeitsmatrix) benötigen. Wirklich, ich …

8 machine-learning data-mining clustering text-mining

3

Wie wird das Textclustering bewertet?

Welche Metriken können zur Bewertung von Textclustering-Modellen verwendet werden? Ich habe tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ verwendet hierarchical clustering (metric is cosine similarity). Wie kann man entscheiden, welches Modell das beste ist?

8 machine-learning clustering text-mining

4

Klassifizieren von E-Mails in R.

Ich arbeite an einem Projekt in R, in dem ich ungefähr 1200 E-Mails von einem Unternehmen habe, von denen die meisten als Klasse 1 oder Klasse 2 gekennzeichnet sind. Dies sind die Arten von Anfragen. Ungefähr 1000 E-Mails sind mit Klasse und 200 mit Klasse Mein Ziel ist es, mithilfe …

8 machine-learning r text-mining

4

Wie lerne ich die Erkennung von Spam-E-Mails?

Ich möchte erfahren, wie ein Spam-E-Mail-Detektor funktioniert. Ich versuche nicht, ein kommerzielles Produkt zu bauen, es wird eine ernsthafte Lernübung für mich sein. Daher suche ich nach Ressourcen wie vorhandenen Projekten, Quellcode, Artikeln, Artikeln usw., denen ich folgen kann. Ich möchte anhand von Beispielen lernen, ich glaube nicht, dass ich …

8 machine-learning classification text-mining

1

Welche Klassifizierungsalgorithmen sollten Sie versuchen, um Textdaten in 300 Kategorien zu klassifizieren?

Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige …

8 machine-learning classification nlp text-mining

1

R Fehler mit Paket tm (Text-Mining)

Ich versuche, das tm-Paket zu verwenden, um einen Vektor von Textzeichenfolgen in ein Korpuselement zu konvertieren. Mein Code sieht ungefähr so aus Corpus(d1$Yes) Dabei d1$Yeshandelt es sich um einen Faktor mit 124 Ebenen, die jeweils eine Textzeichenfolge enthalten. Zum Beispiel, d1$Yes[246] = "So we can get the boat out!" Ich …

8 r text-mining

1

Unterschied zwischen tf-idf und tf mit zufälligen Wäldern

Ich arbeite an einem Problem bei der Textklassifizierung mit Random Forest als Klassifizierer und einem Ansatz mit vielen Wörtern. Ich verwende die grundlegende Implementierung von Random Forests (die in Scikit enthaltene), die bei jedem Split eine binäre Bedingung für eine einzelne Variable erstellt. In Anbetracht dessen gibt es einen Unterschied …

8 classification text-mining random-forest

1

Welcher Deep-Learning-Textklassifizierer ist gut für Gesundheitsdaten?

Ich habe einen Datensatz wie diesen: postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slowly cut usage of drugs …

7 machine-learning deep-learning classification text-mining

3

Wie kann man Cluster schön plotten?

Ich habe einen großen Textdatensatz geclustert. Jeder Cluster wird durch einen Schwerpunkt der dazugehörigen vektorisierten Texte, die Anzahl der Texte, das Erstellungsdatum und andere Parameter dargestellt. Ich kann die Cluster nicht in einem n-dimensionalen Raum darstellen. Welche Möglichkeiten habe ich?

7 clustering text-mining plotting matplotlib

Als «text-mining» getaggte Fragen