Ich muss sicherstellen, dass meine XML-Sitemap weniger als Müll enthält (defekte Links). Die Liste der URLs liegt bei Hunderttausenden, und selbst wenn es möglich wäre, sie alle einzeln zu testen, würde ich es aus vielen Gründen lieber nicht tun:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Ich denke, eine zufällige Teilmenge wäre ausreichend. Das Problem ist, dass ich die Wahrscheinlichkeiten nicht kenne.
Gibt es eine einfache Funktion, die ich verwenden kann?
Wenn es hilft, können wir davon ausgehen, dass wir a priori Informationen über die Wahrscheinlichkeit haben, dass eine Verbindung über Läufe hinweg unterbrochen wird. Nehmen wir an, dass über Läufe hinweg für einen bestimmten Link vorhanden sind, der unterbrochen werden soll.