Als «data-mining» getaggte Fragen

Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.


3
Diskriminierende Ein-Klassen-Klassifizierung mit unausgewogenem, heterogenem negativem Hintergrund?
Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen Proteinsequenzen ("Unbekannter / schlecht kommentierter Hintergrund") oder ungefähr 100.000 überprüfte, relevante Proteine, die mit …

5
Vergrößere die seaborn Heatmap
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


2
Verwenden von Attributen zum Klassifizieren / Gruppieren von Benutzerprofilen
Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …

2
Artikelbasierte und benutzerbasierte Empfehlungsunterschiede in Mahout
Ich würde gerne wissen, wie genau sich mahout benutzerbasierte und artikelbasierte Empfehlungen voneinander unterscheiden. Es definiert das Benutzerbasiert : Empfehlen Sie Artikel, indem Sie nach ähnlichen Benutzern suchen. Dies ist aufgrund der Dynamik der Benutzer oft schwieriger zu skalieren. Artikelbasiert : Berechnen Sie die Ähnlichkeit zwischen Artikeln und geben Sie …

1
Erkennen Sie eine Grammatik in einer Folge von unscharfen Token
Ich habe Textdokumente, die hauptsächlich Listen von Gegenständen enthalten. Jedes Objekt ist eine Gruppe von mehreren Token verschiedener Typen: Vorname, Nachname, Geburtsdatum, Telefonnummer, Stadt, Beruf usw. Ein Token ist eine Gruppe von Wörtern. Artikel können in mehreren Zeilen liegen. Elemente aus einem Dokument haben ungefähr dieselbe Tokensyntax, müssen jedoch nicht …

1
Neo4j vs OrientDB vs Titan
Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …

4
Big Data-Fallstudie oder Anwendungsbeispiel
Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten? Was war das …


4
Entscheidungsbaum vs. KNN
In welchen Fällen ist es besser, einen Entscheidungsbaum und in anderen Fällen einen KNN zu verwenden? Warum in bestimmten Fällen einen von ihnen verwenden? Und der andere in verschiedenen Fällen? (Betrachtet man die Funktionalität, nicht den Algorithmus) Hat jemand Erklärungen oder Hinweise dazu?

2
Gibt es APIs zum Crawlen von Abstracts auf Papier?
Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten? Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit". Kennt jemand eine API, die mir eine Lösung geben kann? Ich …

2
Flugpreise - Welche Analyse sollte verwendet werden, um wettbewerbsfähiges Preissetzungsverhalten und Preiskorrelationen zu ermitteln?
Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …

2
Wird FPGrowth im häufigen Pattern Mining immer noch als „State of the Art“ angesehen?
Soweit ich die Entwicklung von Algorithmen zur Lösung des FPM-Problems (Frequent Pattern Mining) kenne, gibt es auf dem Weg der Verbesserungen einige Hauptkontrollpunkte. Erstens wurde der Apriori- Algorithmus 1993 von Agrawal et al. zusammen mit der Formalisierung des Problems. Der Algorithmus konnte Strip-Off einige Sätze aus den 2^n - 1Sätzen …

4
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.