Data Science

4

Gibt es Faustregeln für die Anzahl der Features im Vergleich zur Anzahl der Instanzen? (kleine Datenmengen)

Ich frage mich, ob es Heuristiken in Bezug auf die Anzahl der Merkmale und die Anzahl der Beobachtungen gibt. Wenn eine Anzahl von Merkmalen gleich der Anzahl von Beobachtungen ist, wird das Modell offensichtlich überpasst. Mit sparsamen Methoden (LASSO, elastisches Netz) können wir verschiedene Merkmale entfernen, um das Modell zu …

16 feature-selection model-selection

2

Welche Lernprobleme eignen sich für Support Vector Machines?

Welche Merkmale oder Eigenschaften weisen darauf hin, dass ein bestimmtes Lernproblem mithilfe von Support-Vektor-Maschinen gelöst werden kann? Mit anderen Worten, was ist es, was Sie dazu bringt, wenn Sie ein Lernproblem sehen: "Oh, ich sollte auf jeden Fall SVMs für dieses" "verwenden, anstatt neuronale Netze oder Entscheidungsbäume oder irgendetwas anderes?

16 machine-learning svm supervised-learning unsupervised-learning

2

Extrahieren Sie die informativsten Textteile aus Dokumenten

Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten? Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes Dokument spricht. Ich möchte einige dieser Teile extrahieren und …

16 nlp text-mining

3

Wie lerne ich Data Science selbst? [geschlossen]

Geschlossen . Diese Frage muss gezielter gestellt werden . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich bin ein autodidaktischer Webentwickler und möchte …

16 beginner self-study

2

Wie wählt man die Funktionen für ein neuronales Netzwerk?

Ich weiß, dass es keine eindeutige Antwort auf diese Frage gibt, aber nehmen wir an, dass ich ein riesiges neuronales Netzwerk mit vielen Daten habe und eine neue Funktion für die Eingabe hinzufügen möchte. Der "beste" Weg wäre, das Netzwerk mit der neuen Funktion zu testen und die Ergebnisse zu …

16 machine-learning neural-network feature-selection feature-extraction

6

Data Science Podcasts?

Was sind einige Podcasts, die sich auf die Datenwissenschaft beziehen? Dies ist eine ähnliche Frage wie die Referenzanforderungsfrage bei CrossValidated . Details / Regeln: Die Podcasts (das Thema und die Folgen) sollten sich auf die Datenwissenschaft beziehen. (Zum Beispiel: Ein Podcast über eine andere Domäne mit einer Episode, die sich …

16 reference-request

2

Empfehlen von Filmen mit zusätzlichen Funktionen mithilfe der gemeinsamen Filterung

Ich versuche ein Empfehlungssystem mit kollaborativer Filterung aufzubauen. Ich habe die üblichen [user, movie, rating]Informationen. Ich möchte eine zusätzliche Funktion wie "Sprache" oder "Filmdauer" integrieren. Ich bin nicht sicher, welche Techniken ich für ein solches Problem verwenden könnte. Bitte schlagen Sie Referenzen oder Pakete in Python / R vor.

16 python r recommender-system

3

Verwendung der NoSQL-Datenbank in der Datenwissenschaft

Wie können NoSQL- Datenbanken wie MongoDB für die Datenanalyse verwendet werden? Welche Funktionen ermöglichen eine schnellere und leistungsfähigere Datenanalyse?

16 bigdata nosql mongodb

4

Python-Bibliothek für segmentierte Regression (auch stückweise Regression genannt)

Ich suche eine Python-Bibliothek, die segmentierte Regression (auch bekannt als stückweise Regression) durchführen kann . Beispiel :

16 python linear-regression library software-recommendation

2

Wie kann die Genauigkeit von Klassifikatoren erhöht werden?

Ich benutze das OpenCV-Beispiel letter_recog.cpp, um mit zufälligen Bäumen und anderen Klassifikatoren zu experimentieren. In diesem Beispiel sind sechs Klassifikatoren implementiert - Random Tree, Boosting, MLP, kNN, naive Bayes und SVM. Es wird ein UCI-Brieferkennungsdatensatz mit 20000 Instanzen und 16 Funktionen verwendet, den ich zum Trainieren und Testen in zwei …

16 machine-learning classification svm accuracy random-forest

5

Wählen Sie einen binären Klassifizierungsalgorithmus

Ich habe ein Problem mit der binären Klassifizierung: Ca. 1000 Proben im Trainingsset 10 Attribute, einschließlich binär, numerisch und kategorisch Welcher Algorithmus ist die beste Wahl für diese Art von Problem? Standardmäßig beginne ich mit SVM (vorläufig werden die nominalen Attributwerte in binäre Features konvertiert), da dies als das Beste …

16 classification binary svm random-forest logistic-regression

3

Diskriminierende Ein-Klassen-Klassifizierung mit unausgewogenem, heterogenem negativem Hintergrund?

Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen Proteinsequenzen ("Unbekannter / schlecht kommentierter Hintergrund") oder ungefähr 100.000 überprüfte, relevante Proteine, die mit …

16 machine-learning data-mining python classification

6

Was ist der Grund für die Protokolltransformation weniger kontinuierlicher Variablen?

Ich habe ein Klassifizierungsproblem gemacht und den Code und die Tutorials vieler Leute gelesen. Eine Sache, die mir aufgefallen ist, ist, dass viele Leute nehmen np.logoder logvon stetigen Variablen wie loan_amountoder applicant_incomeusw. Ich möchte nur den Grund dahinter verstehen. Hilft es, die Genauigkeit unserer Modellvorhersage zu verbessern? Ist es obligatorisch? …

16 machine-learning python classification scikit-learn

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Wie bekomme ich Vorhersagen mit predict_generator zum Streaming von Testdaten in Keras?

Im Keras-Blog zum Training von Convnets von Grund auf wird im Code nur das Netzwerk angezeigt , das mit Trainings- und Validierungsdaten ausgeführt wird. Was ist mit Testdaten? Entsprechen die Validierungsdaten den Testdaten (glaube ich nicht)? Wenn ein separater Testordner in ähnlichen Zeilen wie der Zug- und der Validierungsordner vorhanden …

16 machine-learning python deep-learning keras confusion-matrix