Als «normalization» getaggte Fragen

Normalerweise bedeutet "Normalisierung", Daten erneut auszudrücken, damit die Werte innerhalb eines bestimmten Bereichs liegen.


1
Konvertieren (Normalisieren) sehr kleiner Wahrscheinlichkeitswerte in Wahrscheinlichkeit
Ich schreibe einen Algorithmus, bei dem ich anhand eines Modells Wahrscheinlichkeiten für eine Liste von Datensätzen berechne und dann jede Wahrscheinlichkeit normalisieren muss. So könnte etwas wie [0,00043, 0,00004, 0,00321] in [0,2, 0,03, 0,77] umgewandelt werden. Mein Problem ist, dass die Log-Wahrscheinlichkeiten, mit denen ich arbeite, ziemlich klein sind (zum …


1
Sollten die Daten vor der Anwendung von t-SNE zentriert und skaliert werden?
Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben. Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden? Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.

3
Was bedeutet „Normalisierung“ und wie kann überprüft werden, ob eine Stichprobe oder eine Verteilung normalisiert ist?
Ich habe eine Frage, in der nachgefragt wird, ob die Gleichverteilung ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) normalisiert ist. Was bedeutet es für eine Distribution, normalisiert zu werden? Und zweitens, wie können wir überprüfen, ob eine Distribution normalisiert ist oder nicht? Ich verstehe, dass wir unter normalisierte Daten erhalten , aber hier …


4
Normalisierung vor der Kreuzvalidierung
Hat das Normalisieren von Daten (um einen Mittelwert von Null und eine Standardabweichung von Eins zu haben) vor dem Durchführen einer wiederholten Kreuzvalidierung eine negative Konsequenz, wie beispielsweise eine Überanpassung? Hinweis: Dies gilt für eine Situation, in der #cases> total #features ist Ich transformiere einige meiner Daten mithilfe einer Protokolltransformation …

1
Wie funktioniert die Quantilnormalisierung?
In Genexpressionsstudien mit Microarrays müssen Intensitätsdaten normalisiert werden, damit Intensitäten zwischen Individuen und Genen verglichen werden können. Konzeptionell und algorithmisch funktioniert die "Quantil-Normalisierung" und wie würden Sie dies einem Nicht-Statistiker erklären?

3
Regularisierung und Feature-Skalierung beim Online-Lernen?
Nehmen wir an, ich habe einen logistischen Regressionsklassifikator. Beim normalen Batch-Lernen hätte ich einen Regularizer-Term, um eine Überanpassung zu verhindern und meine Gewichte klein zu halten. Ich würde auch meine Funktionen normalisieren und skalieren. In einer Online-Lernumgebung erhalte ich einen kontinuierlichen Datenstrom. Ich führe mit jedem Beispiel ein Gefälle-Update durch …

2
Kann ich die CLR (Centered Log Ratio Transformation) verwenden, um Daten für PCA vorzubereiten?
Ich benutze ein Skript. Es ist für Kernaufzeichnungen. Ich habe einen Datenrahmen, der die verschiedenen Elementzusammensetzungen in den Spalten über eine gegebene Tiefe (in der ersten Spalte) zeigt. Ich möchte damit eine PCA durchführen und bin verwirrt über die zu wählende Standardisierungsmethode. Hat jemand von euch das benutzt clr(), um …

4
Merkmalsskalierung und mittlere Normalisierung
Ich nehme am maschinellen Lernkurs von Andrew Ng teil und konnte die Antwort auf diese Frage nach mehreren Versuchen nicht richtig beantworten. Bitte helfen Sie, das Problem zu lösen, obwohl ich das Level durchlaufen habe. Angenommen, m=4m=4m=4 Schüler haben eine Klasse besucht und die Klasse hatte eine Zwischenprüfung und eine …


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Algorithmus zur Echtzeitnormalisierung von Zeitreihendaten?
Ich arbeite an einem Algorithmus, der einen Vektor des neuesten Datenpunkts aus einer Reihe von Sensorströmen aufnimmt und den euklidischen Abstand mit vorherigen Vektoren vergleicht. Das Problem ist, dass die verschiedenen Datenströme von völlig verschiedenen Sensoren stammen, sodass bei einer einfachen euklidischen Entfernung einige Werte dramatisch überbetont werden. Klar, ich …

6
Ein robustes (nicht parametrisches) Maß wie der Variationskoeffizient - IQR / Median oder eine Alternative?
Für einen bestimmten Datensatz wird der Spread häufig entweder als Standardabweichung oder als IQR (Interquartilbereich) berechnet. Während a standard deviationnormalisiert ist (z-Scores usw.) und somit zum Vergleich der Streuung aus zwei verschiedenen Populationen verwendet werden kann, ist dies beim IQR nicht der Fall, da die Stichproben aus zwei verschiedenen Populationen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.