Scikit-learn ist ein Python-Modul, das ein einfaches und effizientes Tool für maschinelles Lernen, Data Mining und Datenanalyse umfasst. Es basiert auf NumPy, SciPy und Matplotlib. Es wird unter der 3-Klausel-BSD-Lizenz vertrieben.
Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …
Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen …
Ich versuche xgboost in scikit learn auszuführen. Und ich benutze Pandas nur, um Daten in den Datenrahmen zu laden. Wie soll ich pandas df mit xgboost verwenden? Ich bin verwirrt von der DMatrix-Routine, die zum Ausführen von xgboost algo erforderlich ist.
Ich verstehe, was Standard Scalar macht und was Normalizer macht, gemäß der Scikit-Dokumentation: Normalizer , Standard Scaler . Ich weiß, wann Standard Scaler angewendet wird. Aber in welchem Szenario wird Normalizer angewendet? Gibt es Szenarien, in denen eines dem anderen vorgezogen wird?
Ich habe gerade eine logistische Kurve an einige gefälschte Daten angepasst. Ich habe die Daten im Wesentlichen zu einer Schrittfunktion gemacht. data = -------------++++++++++++++ Aber wenn ich mir die angepasste Kurve anschaue, ist die Steigung sehr klein. Die Funktion, die die Kostenfunktion unter der Annahme einer Kreuzentropie am besten minimiert, …
Ich verstehe cross_validate und wie es funktioniert, aber jetzt bin ich verwirrt darüber, was cross_val_score tatsächlich tut. Kann mir jemand ein Beispiel geben?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Im Rahmen meiner Forschung bin ich daran interessiert, die Etikettenausbreitung in einem Diagramm durchzuführen. Diese beiden Methoden interessieren mich besonders: Xiaojin Zhu und Zoubin Ghahramani. Lernen aus beschrifteten und unbeschrifteten Daten mit Etikettenausbreitung. Technischer Bericht CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston …
Ich konvertiere für jedes Dokument einen Korpus von Textdokumenten in Wortvektoren. Ich habe dies mit einem TfidfVectorizer und einem HashingVectorizer versucht Ich verstehe, dass a HashingVectorizerdie IDFPunktzahlen nicht wie a TfidfVectorizerberücksichtigt. Der Grund, warum ich immer noch mit a arbeite, HashingVectorizerist die Flexibilität, die es beim Umgang mit riesigen Datensätzen …
In den meisten Schätzern für Scikit-Learn gibt es n_jobsin fit/ predictMethoden einen Parameter zum Erstellen paralleler Jobs mit joblib. Ich habe festgestellt, dass durch das Festlegen von -1nur 1 Python-Prozess die Kerne maximal genutzt werden und die CPU-Auslastung 2500% übersteigt. Dies unterscheidet sich erheblich von der Einstellung auf eine positive …
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
Ich arbeite derzeit an einem logistischen Regressionsmodell für die Genomik. Eines der Eingabefelder, die ich als Kovariate einschließen möchte, ist genes. Es sind rund 24.000 Gene bekannt. Es gibt viele Merkmale mit dieser Variabilität in der Computerbiologie, und Hunderttausende von Proben werden benötigt. Wenn ich LabelEncoder()diese 24K-Gene und dann OneHotEncoder()sie …
Ich habe einen Datensatz mit Daten zu Temperatur, Niederschlag und Sojabohnenerträgen für einen Betrieb für 10 Jahre (2005 - 2014). Basierend auf diesen Daten möchte ich die Renditen für 2015 vorhersagen. Bitte beachten Sie, dass der Datensatz TÄGLICHE Werte für Temperatur und Niederschlag enthält, jedoch nur 1 Wert pro Jahr …
Ich habe einen Datensatz mit einer Reihe von Kunden in verschiedenen Städten Kaliforniens, dem Zeitpunkt des Anrufs für jeden Kunden und dem Status des Anrufs (Richtig, wenn der Kunde den Anruf entgegennimmt, und Falsch, wenn der Kunde nicht antwortet). Ich muss einen geeigneten Zeitpunkt finden, um zukünftige Kunden anzurufen, sodass …
Ich plane, einen SVM-Klassifikator (Scikit Linear Support Vector Machine) für die Textklassifizierung auf einem Korpus zu verwenden, der aus 1 Million beschrifteten Dokumenten besteht. Was ich vorhabe, ist, wenn ein Benutzer ein Schlüsselwort eingibt, der Klassifizierer es zuerst in eine Kategorie klassifiziert und dann eine nachfolgende Abfrage zum Abrufen von …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.