Eine Kreuzvalidierung wäre hier wahrscheinlich gut. Dazu teilen Sie Ihren Datensatz in 2 Teile. Sie verwenden den ersten Teil, um beide Modelle anzupassen, und verwenden dann das angepasste Modell, um den zweiten Teil vorherzusagen. Dies kann als Annäherung an einen vollständig bayesianischen Ansatz zur Modellauswahl gerechtfertigt werden. Wir haben die Wahrscheinlichkeit eines ModellsMi
p(d1d2...dN|MiI)=p(d1|MiI)×p(d2|d1MiI)×p(d3|d1d2MiI)×..
..×p(dN|d1d2...dN−1MiI)
Was heuristisch als Folge von Vorhersagen und dann des Lernens aus Fehlern gesehen werden kann. Sie sagen den ersten Datenpunkt ohne Training voraus. Anschließend sagen Sie den zweiten Datenpunkt voraus, nachdem Sie mit dem ersten das Modell kennengelernt haben. Anschließend sagen Sie den dritten Datenpunkt voraus, nachdem Sie die ersten beiden verwendet haben, um mehr über das Modell zu erfahren, und so weiter. Wenn Sie nun einen ausreichend großen Datensatz haben, werden die Parameter des Modells über eine bestimmte Datenmenge hinaus gut bestimmt, und wir haben für einen Wert :k
p(dk+2|d1....dkdk+1MiI)≈p(dk+2|d1....dkMiI)
Das Modell kann nicht mehr über die Parameter "lernen" und sagt im Grunde nur anhand der ersten Beobachtungen voraus . Daher würde ich (die Größe der ersten Gruppe) so wählen , dass es groß genug ist, damit Sie das Modell genau anpassen können. - Datenpunkte pro Parameter sind wahrscheinlich ausreichend. Sie möchten auch groß genug wählen , damit die Abhängigkeit in die ignoriert wird, die Approximation nicht unbrauchbar macht.kk2030kdk+1...dN
Dann würde ich einfach die Wahrscheinlichkeiten jeder Vorhersage bewerten und ihr Verhältnis nehmen, das als Wahrscheinlichkeitsverhältnis interpretiert wird. Wenn das Verhältnis etwa beträgt , ist keines der Modelle besonders besser als das andere. Wenn es weit von ist, bedeutet dies, dass eines der Modelle das andere übertrifft. ein Verhältnis von unter 5 ist schwach, 10 ist stark, 20 ist sehr stark und 100 ist entscheidend (entsprechender Kehrwert für kleine Zahlen).11