Angenommen, Sie können "Übereinstimmungen" zwischen Käufern und Verkäufern auf einem Markt beobachten. Sie können auch Merkmale sowohl von Käufern als auch von Verkäufern beobachten, anhand derer Sie zukünftige Spiele vorhersagen und Empfehlungen für beide Seiten des Marktes aussprechen möchten.
Nehmen Sie der Einfachheit halber an, dass es N Käufer und N Verkäufer gibt und jeder eine Übereinstimmung findet. Es gibt N Übereinstimmungen und (N-1) (N-1) Nicht-Übereinstimmungen. Der All-Inclusive-Trainingsdatensatz enthält N + (N-1) * (N-1) Beobachtungen, die unerschwinglich groß sein können. Es scheint, dass das zufällige Abtasten von (N-1) (N-1) Nichtübereinstimmungen und das Trainieren eines Algorithmus für diese reduzierten Daten effizienter sein könnte. Meine Fragen sind:
(1) Ist eine Stichprobe aus den Nicht-Spielen, um einen Trainingsdatensatz zu erstellen, ein angemessener Weg, um mit diesem Problem umzugehen?
(2) Wenn (1) wahr ist, gibt es eine strenge Möglichkeit zu entscheiden, wie groß ein Teil von (N-1) (N-1) sein soll?