Data Science data-mining

4

K-means: Was sind einige gute Möglichkeiten, um einen effizienten Satz von Anfangsschwerpunkten zu wählen?

Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden geschätzt.

17 data-mining clustering k-means

3

Diskriminierende Ein-Klassen-Klassifizierung mit unausgewogenem, heterogenem negativem Hintergrund?

Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen Proteinsequenzen ("Unbekannter / schlecht kommentierter Hintergrund") oder ungefähr 100.000 überprüfte, relevante Proteine, die mit …

16 machine-learning data-mining python classification

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Warum sind Ensembles so unangemessen effektiv?

Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?

14 machine-learning data-mining predictive-modeling

2

Verwenden von Attributen zum Klassifizieren / Gruppieren von Benutzerprofilen

Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …

14 machine-learning data-mining classification clustering

2

Artikelbasierte und benutzerbasierte Empfehlungsunterschiede in Mahout

Ich würde gerne wissen, wie genau sich mahout benutzerbasierte und artikelbasierte Empfehlungen voneinander unterscheiden. Es definiert das Benutzerbasiert : Empfehlen Sie Artikel, indem Sie nach ähnlichen Benutzern suchen. Dies ist aufgrund der Dynamik der Benutzer oft schwieriger zu skalieren. Artikelbasiert : Berechnen Sie die Ähnlichkeit zwischen Artikeln und geben Sie …

14 machine-learning data-mining algorithms recommender-system

1

Erkennen Sie eine Grammatik in einer Folge von unscharfen Token

Ich habe Textdokumente, die hauptsächlich Listen von Gegenständen enthalten. Jedes Objekt ist eine Gruppe von mehreren Token verschiedener Typen: Vorname, Nachname, Geburtsdatum, Telefonnummer, Stadt, Beruf usw. Ein Token ist eine Gruppe von Wörtern. Artikel können in mehreren Zeilen liegen. Elemente aus einem Dokument haben ungefähr dieselbe Tokensyntax, müssen jedoch nicht …

13 data-mining clustering text-mining time-series correlation

1

Neo4j vs OrientDB vs Titan

Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …

13 data-mining graphs databases social-network-analysis

4

Big Data-Fallstudie oder Anwendungsbeispiel

Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten? Was war das …

13 data-mining bigdata usecase

1

Was ist der Unterschied zwischen einer heißen Codierung und einer ausgelassenen Codierung?

Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

Entscheidungsbaum vs. KNN

In welchen Fällen ist es besser, einen Entscheidungsbaum und in anderen Fällen einen KNN zu verwenden? Warum in bestimmten Fällen einen von ihnen verwenden? Und der andere in verschiedenen Fällen? (Betrachtet man die Funktionalität, nicht den Algorithmus) Hat jemand Erklärungen oder Hinweise dazu?

13 machine-learning data-mining decision-trees

2

Gibt es APIs zum Crawlen von Abstracts auf Papier?

Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten? Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit". Kennt jemand eine API, die mir eine Lösung geben kann? Ich …

13 data-mining machine-learning

2

Flugpreise - Welche Analyse sollte verwendet werden, um wettbewerbsfähiges Preissetzungsverhalten und Preiskorrelationen zu ermitteln?

Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …

12 data-mining dataset regression correlation visualization

2

Wird FPGrowth im häufigen Pattern Mining immer noch als „State of the Art“ angesehen?

Soweit ich die Entwicklung von Algorithmen zur Lösung des FPM-Problems (Frequent Pattern Mining) kenne, gibt es auf dem Weg der Verbesserungen einige Hauptkontrollpunkte. Erstens wurde der Apriori- Algorithmus 1993 von Agrawal et al. zusammen mit der Formalisierung des Problems. Der Algorithmus konnte Strip-Off einige Sätze aus den 2^n - 1Sätzen …

12 bigdata data-mining efficiency state-of-the-art

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

Als «data-mining» getaggte Fragen