Sind Kaggle-Wettbewerbe nur zufällig gewonnen?


12

Kaggle-Wettbewerbe bestimmen die endgültigen Platzierungen auf der Grundlage eines durchgehaltenen Testsatzes.

Ein durchgehaltener Testsatz ist eine Stichprobe; Es kann sein, dass es nicht repräsentativ für die zu modellierende Population ist. Da jede Einsendung wie eine Hypothese ist, hat der Algorithmus, der den Wettbewerb gewonnen hat, möglicherweise den Testsatz besser als die anderen getroffen. Mit anderen Worten, wenn ein anderer Testsatz ausgewählt und der Wettbewerb wiederholt würde, würden die Platzierungen gleich bleiben?

Für das Sponsoring-Unternehmen ist dies nicht wirklich wichtig (wahrscheinlich würden die Top-20-Einsendungen ihre Basislinie verbessern). Ironischerweise könnten sie jedoch ein Modell der ersten Reihe verwenden, das schlechter ist als die anderen Top 5. Für die Teilnehmer des Wettbewerbs scheint Kaggle letztendlich ein Glücksspiel zu sein - Glück ist nicht erforderlich, um über die richtige Lösung zu stolpern, es ist erforderlich, über die Lösung zu stolpern, die zum Test-Set passt!

Ist es möglich, den Wettbewerb so zu ändern, dass alle Spitzenteams, die statistisch nicht zu unterscheiden sind, gewinnen? Oder könnte in dieser Gruppe das sparsamste oder rechnerisch billigste Modell gewinnen?


1
Einige Leute verwenden das Testen des versteckten Sets, um die tatsächlichen Testwerte zurückzusetzen. Dies ermöglicht es ihnen, die Ergebnisse nahezu perfekt anzupassen. Das Holdout verhindert dies. Meine persönliche Meinung ist, dass der Unterschied zwischen Holdout und Non-Holdout darin besteht, Betrüger loszuwerden.
EngrStudent

1
X

Die Punktzahlen werden gewichtet. Ein großartiges System wird fast jedes Mal einen Trödel übertreffen. Es braucht eine Lastwagenladung Arbeit, um so schlimm zu scheitern, dass die letzte zur ersten wird. Die örtliche Reihenfolge, bei Tausenden von Teilnehmern vielleicht 10 Rangstufen oder weniger, würde sich ändern, wenn das Holdout erneut abgetastet würde. Sie könnten ein numerisches Experiment durchführen, um dies zu zeigen.
EngrStudent

2
Sie sind aus Sicht des Sponsoring-Konzerns nicht gezwungen, das Gewinnermodell auch tatsächlich umzusetzen. Wenn ich mich richtig erinnere, wurde das Modell, das die Netflix-Herausforderung gewonnen hat, nie implementiert. Sie können einige glaubwürdige Kandidaten unter die besten Modelle nehmen und sie weiter testen.
David Ernst

Antworten:


12

Ja, Ihre Argumentation ist richtig. Wenn ein anderer Testsatz ausgewählt und der Wettbewerb wiederholt würde, würde sich die Rangfolge in der Tat ändern. Betrachten Sie das folgende Beispiel. Alle Einträge zu einem Kaggle-Wettbewerb mit binären Labels raten einfach zufällig (und zum Beispiel unabhängig), um ihre Ausgabe vorherzusagen. Durch Zufall wird einer von ihnen mehr als andere mit dem Holdout einverstanden sein, obwohl keine Vorhersage getroffen wird.

Dies ist zwar ein wenig erfunden, aber wir können sehen, dass Abweichungen in den einzelnen Modellen der Einreichung bedeuten, dass das Anwenden vieler solcher Einträge in der Tat nur zum Rauschen des Holdout-Sets passt. Dies sagt uns, dass (abhängig von den einzelnen Modellabweichungen) die Top-N-Modelle wahrscheinlich dasselbe verallgemeinern. Dies ist der Garten der Gabelpfade , mit der Ausnahme, dass die "Forscher" nicht gleich sind (aber das spielt keine Rolle).

Ist es möglich, den Wettbewerb so zu ändern, dass alle Mannschaften gewinnen, die sich statistisch nicht von der Spitzenleistung auf dem Testset unterscheiden lassen?

Tatsächlich.

  • Ein Ansatz (so unpraktisch er auch ist) wäre es, die Varianz eines bestimmten Modells in jedem Eintrag explizit zu ermitteln, wodurch wir einen CI für deren Holdout-Leistung erhalten.
  • Ein weiterer Ansatz, der unter Umständen viel Rechenaufwand erfordert, besteht darin, ein CI auf Holdout-Leistung hochzufahren, indem eine Schulungs- und Test-API für alle Modelle verfügbar gemacht wird.

Gute Antwort. Können Sie erläutern, wie die beiden Methoden implementiert werden könnten?
Benutzer0

1
Es ist interessant: Das beste Modell könnte in der Tat nicht das Siegerteam sein.
user0

1
Die explizite Berechnung der Varianz ist ohne die Datenverteilung nicht möglich (ich erwähne sie nur, da sie die Theorie erklärt). In diesem Dokument werden verschiedene Methoden zur Genauigkeitsschätzung beschrieben (und wo sie fehlschlagen), einschließlich Bootstrap und Kreuzvalidierung. Im Gegensatz zum Artikel wird in diesem Zusammenhang jedoch kein Lebenslauf für die Modellauswahl für einen Trainingssatz erstellt, sondern für eine solide "Punktzahl" für den kombinierten Trainings- und Testdatensatz.
VF1

Vielleicht sind zwei Runden besser für eine solide Gewinnschätzung. Die erste entfernt die 99% schlechtesten und die zweite Runde schätzt die Rangfolge neu, um die Reihenfolge zu "polieren".
EngrStudent

1
So fügen Sie auf Ideen , die hier Besuche dieses Papier durch den Gewinner des NCAA March Madness Kaggle Wettbewerb im Jahr 2014 einen Bildlauf zum Abschnitt 4, „Simulation Study“. Wenn die für jedes Matchup vorhergesagten Wahrscheinlichkeiten ihres Modells tatsächlich der wahre Naturzustand wären, würde laut ihrer Sim ihre mittlere Platzierung den 11. Platz einnehmen.
Klumbard

3

Es gibt andere Arten von Wettbewerben, bei denen Kaggle keine Zufallselemente hat. Zum Beispiel der gestohlene Schlitten dieses Stanta .

Es ist ein diskretes Optimierungsproblem und es gibt sogar keine private Rangliste. Was Sie in der öffentlichen Rangliste sehen, ist das Endergebnis.

Im Vergleich zu betreutem Lernen, das für viele Menschen einen einfachen Start hat, ist diese Art von Wettbewerb "härter".

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.