Ich arbeite derzeit an einem logistischen Regressionsmodell für die Genomik. Eines der Eingabefelder, die ich als Kovariate einschließen möchte, ist genes
. Es sind rund 24.000 Gene bekannt. Es gibt viele Merkmale mit dieser Variabilität in der Computerbiologie, und Hunderttausende von Proben werden benötigt.
- Wenn ich
LabelEncoder()
diese 24K-Gene - und dann
OneHotEncoder()
sie ...
Werden 24.000 Spalten meine Keras-Trainingszeiten für eine 2,2-GHz-Quad-Core-i7-CPU unangemessen machen?
Wenn ja, gibt es einen anderen Ansatz für die Codierung, den ich damit verfolgen kann?
Sollte ich irgendwie versuchen, dieser Funktion eine Ebene meines Modells zuzuweisen?
Bedeutet dies, dass ich 24K-Eingangsknoten benötige?