Als «feature-construction» getaggte Fragen

Beim Feature-Engineering wird das Domänenwissen über die Daten verwendet, um Features für Modelle des maschinellen Lernens zu erstellen. Dieses Tag ist sowohl für theoretische als auch für praktische Fragen zum Feature-Engineering gedacht, mit Ausnahme von Fragen, die nach Code fragen und bei CrossValidated nicht zum Thema gehören.

2
Grundlegendes zum Feature-Hashing
Wikipedia bietet das folgende Beispiel für die Beschreibung von Feature-Hashing . Die Zuordnung scheint jedoch nicht mit dem definierten Wörterbuch übereinzustimmen Zum Beispiel tosollte 3entsprechend dem Wörterbuch konvertiert werden , aber es wird 1stattdessen als codiert . Gibt es einen Fehler in der Beschreibung? Wie funktioniert Feature-Hashing? Die Texte: John …


1
Warum sind zufällige Fourier-Merkmale nicht negativ?
Zufällige Fourier-Funktionen liefern Annäherungen an Kernelfunktionen. Sie werden für verschiedene Kernelmethoden wie SVMs und Gaußsche Prozesse verwendet. Heute habe ich versucht, die TensorFlow-Implementierung zu verwenden, und für die Hälfte meiner Funktionen wurden negative Werte angezeigt . So wie ich es verstehe, sollte dies nicht passieren. Also ging ich zurück zum …


6
Vorbereiten / Erstellen von Funktionen für die Erkennung von Anomalien (Netzwerksicherheitsdaten)
Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …

3
Ist Feature Engineering wichtig, wenn Random Forest oder Gradient Boosting durchgeführt werden?
Für lineare Modelle (wie lineare Regression, logistische Regression usw.) ist das Feature-Engineering ein wichtiger Schritt, um die Leistung der Modelle zu verbessern. Meine Frage ist, ist es wichtig, ob wir Feature-Engineering durchführen, während wir zufällige Gesamtstruktur- oder Gradienten-Boosting verwenden? Zugegeben, diese Modelle sind keine Deep-Learning-Modelle. aber , es scheint, dass …

2
Wie wichtig ist die Basiserweiterung für tiefe Netze?
Wenn tiefe neuronale Netze als universelle Funktionsapproximatoren betrachtet werden, ist eine Basiserweiterung wirklich notwendig? Oder wäre dies fallspezifisch? Wenn man beispielsweise drei quantitative X-Variablen hat, wäre es dann von Vorteil, die Anzahl der Variablen durch Einführung von Wechselwirkungen, Polynomen usw. zu erweitern? Dies scheint beispielsweise bei RFs und SVM von …

2
Feature, das durch maximales Pooling im Vergleich zum mittleren Pooling extrahiert wurde
Ist es beim Deep Learning und seiner Anwendung auf Computer Vision möglich zu erkennen, welche Funktionen diese beiden Arten von Pooling-Extrakten bieten? Kann man beispielsweise sagen, dass der maximale Pool Kanten extrahiert? Können wir etwas Ähnliches in Bezug auf Mean Pooling sagen? PS Sie können gerne empfehlen, ob der Stapelüberlauf …

1
Codieren von kategorialen Merkmalen mit hoher Kardinalität (viele Kategorien), wenn sich die Merkmale in Bezug auf die Kardinalität stark unterscheiden
Ich habe Fragen zur Codierung kategorialer Features durchgesehen, konnte jedoch keine finden, die mein Problem diskutieren. Entschuldigung, wenn ich es verpasst habe. Nehmen wir an, wir haben einen Datensatz mit binären und nominalen Variablen von jeweils ungefähr gleicher Bedeutung. Die meisten Klassifizierer können sich nicht direkt mit kategorialen Typen befassen, …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Feature-Konstruktion in R.
Ich frage mich, ob es in R Algorithmen (möglicherweise genetische Algorithmen) für die Merkmalskonstruktion gibt (Ableiten von Prädiktorkandidaten von vorhandenen Prädiktoren). Ich denke an eine Routine zum Testen von Potenzen höherer Ordnung, Wechselwirkungen, Verhältnissen und linearen Kombinationen sowie nichtlinearen Funktionen vorhandener Variablen (sin, cos, atan usw.). Dies kann eine Filter- …

3
Welche Rolle spielt Feature Engineering bei der statistischen Inferenz?
Dies kann eine dumme Frage sein. Ich bin ein frischgebackener Hochschulabsolvent, der im Bereich der prädiktiven Modellierung arbeitet und feststellt, dass die Durchführung von Feature-Engineering einen hohen Stellenwert hat. In den meisten meiner akademischen Ausbildungen in Statistik wurde Feature Engineering und dergleichen (abgesehen von Argumenten gegen das Diskretisieren / Binning …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.