Hinweis : Diese Antwort ist zunehmend veraltet.
Alexa Internet hat den größten Beitrag zur Internetsammlung des Internetarchivs geleistet. Material, das Alexa für seine Zwecke crawlt, wurde ein paar Monate später an IA gespendet. Das Hinzufügen der in der Frage erwähnten Verbotsregel wirkt sich nicht auf diese Crawls aus, aber der Wayback wird sie "rückwirkend" honorieren (Zugriff verweigern, das Material befindet sich weiterhin im Archiv - Sie sollten Alexas Roboter ausschließen, wenn Sie Ihr Material wirklich draußen lassen möchten des Internet-Archivs).
Es mag Möglichkeiten geben, Alexas Crawls zu beeinflussen, aber ich kenne mich damit nicht aus.
Seit IA einen eigenen Crawler (Heritrix) entwickelt hat, haben sie begonnen, ihre eigenen Crawls durchzuführen, aber diese sind in der Regel gezielte Crawls (sie führen Wahl-Crawls für die Library of Congress durch und haben nationale Crawls für Frankreich und Australien usw. durchgeführt). Sie beteiligen sich nicht an den von Google und Alexa durchgeführten nachhaltigen Crawling-Vorgängen auf globaler Ebene. IAs größter Crawl war ein spezielles Projekt zum Crawlen von 2 Milliarden Seiten.
Da diese Crawls nach Zeitplänen ausgeführt werden, die von projektspezifischen Faktoren abhängen, können Sie nicht beeinflussen, wie oft sie Ihre Site besuchen oder ob sie Ihre Site besuchen.
Die einzige Möglichkeit, direkt zu beeinflussen, wie und wann IA Ihre Site crawlt, besteht in der Verwendung ihres Archive-It- Dienstes. Mit diesem Service können Sie benutzerdefinierte Crawls angeben. Die resultierenden Daten werden (irgendwann) in die Websammlung von IA aufgenommen. Dies ist jedoch ein kostenpflichtiger Abonnementdienst.