Ich möchte wissen, ob der unten beschriebene Prozess gültig / akzeptabel ist und ob eine Begründung vorliegt.
Die Idee: Überwachte Lernalgorithmen setzen keine zugrunde liegenden Strukturen / Verteilungen der Daten voraus. Am Ende des Tages geben sie Punktschätzungen aus. Ich hoffe, die Unsicherheit der Schätzungen irgendwie zu quantifizieren. Der Prozess der ML-Modellbildung ist von Natur aus zufällig (z. B. bei der Stichprobe zur Kreuzvalidierung für die Optimierung von Hyperparametern und bei der Unterabtastung in stochastischem GBM), sodass eine Modellierungspipeline für die gleichen Prädiktoren mit jedem unterschiedlichen Startwert eine unterschiedliche Ausgabe liefert. Meine (naive) Idee ist es, diesen Prozess immer wieder zu wiederholen, um eine Verteilung der Vorhersage zu erzielen, und ich kann hoffentlich Aussagen über die Unsicherheit der Vorhersagen treffen.
Wenn es darauf ankommt, sind die Datensätze, mit denen ich arbeite, normalerweise sehr klein (~ 200 Zeilen).
Macht das Sinn?
Um dies zu verdeutlichen, starte ich die Daten nicht im herkömmlichen Sinne (dh ich starte die Daten nicht erneut). In jeder Iteration wird derselbe Datensatz verwendet. Ich nutze nur die Zufälligkeit in xval und stochastischem GBM aus.