Als «data-transformation» getaggte Fragen

Mathematische, oft nichtlineare Reexpression von Datenwerten. Daten werden häufig transformiert, um entweder die Annahmen eines statistischen Modells zu erfüllen oder um die Ergebnisse einer Analyse besser interpretierbar zu machen.



2
Ist eine Feature-Transformation (Power, Log, Box-Cox) für Deep Learning erforderlich?
Ich habe gelesen, dass es vorteilhaft ist, bestimmte Transformationen allgemeiner Funktionen auf Datensätze anzuwenden, bevor sie auf Modelle für maschinelles Lernen treffen. Diese basieren auf der Verteilung der Funktionen des Datensatzes. Beispiel: Anwenden von Protokolltransformationen auf verzerrte normalverteilte Features. Einige Beispiele hier . Soweit ich weiß, ist "Automatic Feature Engineering" …



3
Wenn mein Ziel darin besteht, die absolute Änderung der Verhältnisse zu testen, kann ich die Verhältnisse direkt ohne Protokolltransformation vergleichen?
Verhältnisse (z. B. = / ) werden häufig verwendet (z. B. Faltungsänderungen der mRNA- oder Proteinexpression, des Body-Mass-Index [BMI] usw.). Viele Leute raten, Variablen, die als Verhältnisse codiert sind (z. B. Fold-Change), logarithmisch zu transformieren, da sie stark nach rechts geneigt sind. Verhältnisse ( / ) sind jedoch relative Änderungen …


2
Reicht die logarithmische Transformation aus, um jede Verteilung zu zähmen?
Heute habe ich eine ziemlich bekannte Tatsache erkannt. Die logTransformation einer Zufallsvariablen, die aus einer Fettschwanzverteilung gezogen wird, wird in eine exponentielle Schwanzverteilung abgebildet . Meine Frage ist sehr einfach: Reicht der Logarithmus aus, um jede Verteilung zu zähmen? Ich kenne keine Distributionen, die extremer sind als die Pareto-Distribution, dann …


1
Vorverarbeitung von E-Mail- und IP-Zeichenfolgen für die Klassifizierungsaufgabe
Ich bin relativ neu auf dem Gebiet der Datenwissenschaft, entschuldigen Sie meine Anfängerfrage. Welche Methoden stehen zur Konvertierung emailund ipin Vektoren für Online-Lernalgorithmen zur Verfügung? Das Klassifizierungsziel ist die Bewertung von Betrug / Nicht-Betrugstransaktionen. Zur weiteren Erläuterung: Die anderen relevanten Felder sind kategorisch und wurden vektorisiert.

2
Protokoll des Durchschnitts v. Durchschnitt des Protokolls
Ich erstelle einen Datensatz mit monatlichen Durchschnittswerten basierend auf täglichen Daten. Dieser Datensatz wird für die Standardregressionsanalyse verwendet. Ich gehe davon aus, dass ich die abhängige Variable transformieren möchte, die eine ungefähr logarithmische Normalverteilung aufweist. Meine Frage ist, ob es angemessener ist, die Daten vor oder nach dem monatlichen Durchschnitt …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.