Data Science machine-learning

2

Wie kann die Genauigkeit von Klassifikatoren erhöht werden?

Ich benutze das OpenCV-Beispiel letter_recog.cpp, um mit zufälligen Bäumen und anderen Klassifikatoren zu experimentieren. In diesem Beispiel sind sechs Klassifikatoren implementiert - Random Tree, Boosting, MLP, kNN, naive Bayes und SVM. Es wird ein UCI-Brieferkennungsdatensatz mit 20000 Instanzen und 16 Funktionen verwendet, den ich zum Trainieren und Testen in zwei …

16 machine-learning classification svm accuracy random-forest

3

Diskriminierende Ein-Klassen-Klassifizierung mit unausgewogenem, heterogenem negativem Hintergrund?

Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen Proteinsequenzen ("Unbekannter / schlecht kommentierter Hintergrund") oder ungefähr 100.000 überprüfte, relevante Proteine, die mit …

16 machine-learning data-mining python classification

6

Was ist der Grund für die Protokolltransformation weniger kontinuierlicher Variablen?

Ich habe ein Klassifizierungsproblem gemacht und den Code und die Tutorials vieler Leute gelesen. Eine Sache, die mir aufgefallen ist, ist, dass viele Leute nehmen np.logoder logvon stetigen Variablen wie loan_amountoder applicant_incomeusw. Ich möchte nur den Grund dahinter verstehen. Hilft es, die Genauigkeit unserer Modellvorhersage zu verbessern? Ist es obligatorisch? …

16 machine-learning python classification scikit-learn

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Wie bekomme ich Vorhersagen mit predict_generator zum Streaming von Testdaten in Keras?

Im Keras-Blog zum Training von Convnets von Grund auf wird im Code nur das Netzwerk angezeigt , das mit Trainings- und Validierungsdaten ausgeführt wird. Was ist mit Testdaten? Entsprechen die Validierungsdaten den Testdaten (glaube ich nicht)? Wenn ein separater Testordner in ähnlichen Zeilen wie der Zug- und der Validierungsordner vorhanden …

16 machine-learning python deep-learning keras confusion-matrix

3

Wie kann man Wahrscheinlichkeiten in xgboost vorhersagen?

Die folgende Vorhersagefunktion gibt ebenfalls -ve-Werte an, sodass es sich nicht um Wahrscheinlichkeiten handeln kann. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Ich google & versuchte, pred_s <- predict(bst, x_mat_s2,type="response") aber es hat …

16 machine-learning r predictive-modeling decision-trees

7

Wann ist Präzision wichtiger als Rückruf?

Kann mir jemand einige Beispiele nennen, bei denen es auf Präzision ankommt, und einige Beispiele, bei denen es auf Rückruf ankommt?

16 machine-learning evaluation

2

Warum müssen wir eine Dummy-Variable verwerfen?

Ich habe gelernt, dass wir uns beim Erstellen eines Regressionsmodells um kategoriale Variablen kümmern müssen, indem wir sie in Dummy-Variablen konvertieren. Wenn es in unserem Datensatz beispielsweise eine Variable wie location gibt: Location ---------- Californian NY Florida Wir müssen sie konvertieren wie: 1 0 0 0 1 0 0 0 …

16 machine-learning regression categorical-data

8

Wie lerne ich neuronale Netze?

Ich bin ein Studienanfänger (ich erwähne das, damit Sie mir meine Unbekanntheit verzeihen können), der derzeit über neuronale Netze recherchiert. Ich habe ein neuronales Netzwerk mit drei Knoten (das funktioniert) gemäß den Anweisungen meines Professors codiert. Ich möchte jedoch eine Karriere in KI und Data Science anstreben und möchte mir …

15 machine-learning neural-network

4

R: Maschinelles Lernen auf der GPU

Gibt es maschinelle Lernpakete für R, die die GPU nutzen können, um die Trainingsgeschwindigkeit zu verbessern (so etwas wie Theano aus der Python-Welt)? Ich sehe, dass es ein Paket namens gputools gibt, das die Ausführung von Code auf der GPU ermöglicht, aber ich suche nach einer vollständigeren Bibliothek für maschinelles …

15 machine-learning r gpu

3

Was ist der Unterschied zwischen wortbasierten und zeichenbasierten Textgenerierungs-RNNs?

Beim Lesen über die Texterzeugung mit wiederkehrenden neuronalen Netzen ist mir aufgefallen, dass einige Beispiele implementiert wurden, um Text Wort für Wort und andere Zeichen für Zeichen zu erzeugen, ohne dass tatsächlich angegeben wurde, warum. Was ist also der Unterschied zwischen RNN-Modellen, die Text pro Wort und Text pro Zeichen …

15 machine-learning neural-network nlp rnn

4

Wie spezifiziere ich wichtige Attribute?

Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …

15 machine-learning statistics feature-selection

4

XGBoost-Ausgänge tendieren zu den Extremen

Ich verwende derzeit XGBoost zur Risikoprognose. Es scheint in der Abteilung für binäre Klassifizierung gute Arbeit zu leisten, aber die Wahrscheinlichkeitsausgaben sind weit davon entfernt, dh eine Änderung des Werts eines Merkmals in einer Beobachtung um einen sehr kleinen Betrag kann die Wahrscheinlichkeit erhöhen Ausgangssprung von 0,5 auf 0,99. Ich …

15 machine-learning classification xgboost probability probability-calibration

3

Wie kann ich die Korrelation zwischen Features und Zielvariable überprüfen?

Ich versuche, ein RegressionModell zu erstellen , und suche nach einer Möglichkeit, um zu überprüfen, ob eine Korrelation zwischen Features und Zielvariablen besteht. Dies ist meine Probe dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …

15 machine-learning scikit-learn regression linear-regression

1

Ist eine geschichtete Stichprobe erforderlich (zufällige Gesamtstruktur, Python)?

Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht. Bisher stellte ich in meinem Projekt fest, dass der geschichtete Fall zu einer …

14 machine-learning python random-forest sampling training

Als «machine-learning» getaggte Fragen