Ich weiß nicht, ob dies ein Kommentar oder eine Antwort ist. Ich setze hier, weil es sich wie eine Antwort anfühlt.
Bei der k-fachen Kreuzvalidierung partitionieren Sie Ihre Daten in k Gruppen. Wenn Sie auch nur die "Grundlagen" behandeln, wählen Sie die Mitglieder für jedes der k Fächer gleichmäßig zufällig aus.
Wenn ich von Daten spreche, stelle ich mir jede Zeile als Beispiel und jede Spalte als Dimension vor. Ich bin es gewohnt, mit verschiedenen Methoden die Wichtigkeit von Variablen und Spalten zu bestimmen.
Was wäre, wenn Sie als Gedankenübung vom einheitlichen Zufallsprinzip "Lehrbuch" abweichen und feststellen würden, welche Zeilen wichtig sind? Vielleicht informieren sie jeweils nur eine Variable, aber vielleicht informieren sie mehr. Gibt es Zeilen, die weniger wichtig sind als andere? Vielleicht sind viele der Punkte informativ, vielleicht sind es nur wenige.
Wenn Sie die Wichtigkeit der Variablen kennen, können Sie sie möglicherweise nach Wichtigkeit einteilen. Vielleicht könnten Sie einen einzelnen Behälter mit den wichtigsten Proben herstellen. Dies könnte die Größe Ihres "k" definieren. Auf diese Weise würden Sie den "informativsten" k-ten Bucket bestimmen und ihn mit anderen und mit dem am wenigsten informativen Bucket vergleichen.
Dies könnte Ihnen eine Vorstellung von der maximalen Variation Ihrer Modellparameter geben. Es ist nur eine Form.
Eine zweite Möglichkeit, die k-ten Eimer aufzuteilen, besteht in der Größe und Richtung des Einflusses. Sie können also Samples, die einen oder mehrere Parameter in eine Richtung beeinflussen, in einen Bucket und Samples, die denselben oder mehrere Parameter in die entgegengesetzte Richtung beeinflussen, in einen anderen Bucket verschieben.
Die Parametervariation in dieser Form kann den Variablen einen breiteren Sweep verleihen, basierend nicht auf der Informationsdichte, sondern auf der Informationsrasse.
Viel Glück.