Was ist Datenmischung?


15

Dieser Begriff kommt häufig in methodenbezogenen Threads vor .

Ist das Mischen eine bestimmte Methode für Data Mining und statistisches Lernen? Ich kann kein relevantes Ergebnis von Google erhalten.

Es scheint, dass das Mischen die Ergebnisse vieler Modelle verwechselt und zu einem besseren Ergebnis führt. Gibt es eine Ressource, die mir hilft, mehr darüber zu wissen?

Antworten:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Einige Papiere, die Ihnen helfen, das Mischen besser zu verstehen. Ich denke, Sie können auch nach Ensemble-Auswahl / Lernen und Stapeln googeln.

Ihr allgemeines Verständnis von "Verwechseln von Ergebnissen aus vielen Modellen und Erzielen eines besseren Ergebnisses" ist jedoch korrekt.


Dieser Link wurde auch von irgendwo im Kaggle-Forum übernommen. Ich habe nur den Link des PDFs gespeichert, aber nicht die Diskussion ...
König

12

Boosting (wie in der verknüpften Diskussion erwähnt) ist eine Methode, die eine Reihe von Algorithmen kombiniert, um ein Ergebnis zu erzielen, das besser ist als das, was Sie von einem einzelnen Algorithmus erhalten können. Beispielsweise ist Random Forest ein Verfahren zum Kombinieren verschiedener Klassifizierungsbäume für einen Klassifizierungsalgorithmus. Dieser Ansatz wird formal als Ensemble-Mittelung bezeichnet (obwohl der Algoithmus normalerweise die Mehrheitsregel anwendet). Das Vermischen scheint ein Wort zu sein, mit dem manche Leute einen stärkenden Ansatz für die Klassifizierung beschreiben.


Kann man das Blending nennen, wenn ich die Klassifikationsbäume in einem normalen Adaboost-Modell durch andere Algorithmen ersetze?
TomHall

Hallo, Michael. Deine Antwort ist wirklich hilfreich, aber schade, ich bin neu in der Statistik und habe noch nicht genug Ruf, um deine Antwort abzustimmen.
TomHall

1
Na dann denk dran, wenn du ein paar Wiederholungspunkte hast.
Michael R. Chernick

0

Beim Mischen von Industriedaten nicht um Modelle, sondern um die Vorverarbeitung : Hierbei handelt es sich um das Zusammenführen von Daten, die aus verschiedenen Quellen stammen, z. B. aus einer Datenbank und anderen Daten aus CSV-Dateien.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.