Ich habe einen Datensatz mit 20000 Proben, jede hat 12 verschiedene Funktionen. Jede Stichprobe gehört entweder zur Kategorie 0 oder 1. Ich möchte ein neuronales Netzwerk und einen Entscheidungswald trainieren, um die Stichproben zu kategorisieren, damit ich die Ergebnisse und beide Techniken vergleichen kann.
Das erste, worauf ich gestoßen bin, ist die richtige Normalisierung der Daten. Ein Merkmal liegt im Bereich , ein anderes in und es gibt ein Merkmal, das meistens den Wert 8 und manchmal 7 annimmt. ich also in verschiedenen Quellen lese, ist die Eingabe richtig normalisiert Daten sind für neuronale Netze von entscheidender Bedeutung. Wie ich herausgefunden habe, gibt es viele Möglichkeiten, die Daten zu normalisieren, zum Beispiel:
- Min-Max-Normalisierung : Der Eingabebereich wird linear in das Intervall transformiert (oder alternativ , spielt das eine Rolle?)
- Z-Score-Normalisierung : Die Daten werden so transformiert, dass sie einen Mittelwert von Null und eine Einheitsvarianz aufweisen:
Welche Normalisierung soll ich wählen? Wird Normalisierung auch für Entscheidungswälder benötigt? Bei der Z-Score-Normalisierung liegen die verschiedenen Merkmale meiner Testdaten nicht im gleichen Bereich. Könnte dies ein Problem sein? Sollte jedes Feature mit demselben Algorithmus normalisiert werden, sodass ich mich entscheide, entweder Min-Max für alle Features oder Z-Score für alle Features zu verwenden?
Gibt es Kombinationen, bei denen die Daten auf abgebildet sind und auch einen Mittelwert von Null haben (was eine nichtlineare Transformation der Daten und damit eine Änderung der Varianz und anderer Merkmale der Eingabedaten implizieren würde).
Ich fühle mich etwas verloren, weil ich keine Referenzen finde, die diese Fragen beantworten.