Ich möchte die Wichtigkeit jedes Eingabe-Features mithilfe eines tiefen Modells berechnen. Ich fand jedoch nur einen Artikel über die Auswahl von Funktionen mithilfe von Deep Learning - die Auswahl von Funktionen . Sie fügen eine Ebene von Knoten ein, die direkt mit jedem Feature verbunden sind, vor der ersten verborgenen …
In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden: Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da …
Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …
Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …
Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
Ich bin verwirrt über die Permutationsanalyse für die Merkmalsauswahl in einem logistischen Regressionskontext. Können Sie den zufälligen Permutationstest klar erläutern und erläutern, wie er für die Merkmalsauswahl gilt? Möglicherweise mit genauem Algorithmus und Beispielen. Wie ist der Vergleich mit anderen Schrumpfungsmethoden wie Lasso oder LAR?
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …
Ist es möglich, die Kernel-Hauptkomponentenanalyse (kPCA) für die latente semantische Indizierung (LSI) auf dieselbe Weise wie die PCA zu verwenden? Ich führe LSI in R mit der prcompPCA-Funktion durch und extrahiere die Merkmale mit den höchsten Belastungen aus den ersten Komponenten. Dadurch erhalte ich die Funktionen, die die Komponente am …
In einem Artikel, den ich kürzlich gelesen habe, bin ich in der Datenanalyse auf Folgendes gestoßen: Die Datentabelle wurde dann in Gewebe und Zelllinien aufgeteilt, und die beiden Untertabellen wurden getrennt median poliert (die Zeilen und Spalten wurden iterativ angepasst, um den Median 0 zu haben), bevor sie wieder zu …
Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …
Ich habe festgestellt, dass die Funktion Lasso in MATLAB relativ langsam ist. Ich habe viele Regressionsprobleme mit normalerweise 1 bis 100 Prädiktoren und 200 bis 500 Beobachtungen. In einigen Fällen erwies sich Lasso als extrem langsam (um ein Regressionsproblem zu lösen, dauerte es einige Minuten). Ich entdeckte, dass dies der …
Ich möchte ein neuronales Netzwerk mit einer Zeichenfolge als Eingabevektor trainieren. Lernbeispiele sind unterschiedlich lang und aus diesem Grund weiß ich nicht, wie ich sie darstellen soll. Angenommen, ich habe zwei Beispiele für Sequenzen, hier Namen: john doe maurice delanoe Das erste Beispiel hat die Länge 8, das zweite die …
Wie würde ich die Ausgabe einer Hauptkomponentenanalyse (PCA) in einem verallgemeinerten linearen Modell (GLM) verwenden, vorausgesetzt, die PCA wird für die Variablenauswahl für das GLM verwendet? Erläuterung: Ich möchte PCA verwenden, um die Verwendung korrelierter Variablen im GLM zu vermeiden. PCA gibt mir jedoch Ausgaben wie .2*variable1+.5*variable3usw. Ich bin es …
Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.