(Zusätzlich zu @ Johns Antwort.)
Gibt es eine Möglichkeit, Google anzuweisen, diese Website nicht zu indizieren?
Eher neugierig , dass , während sie geklont zu haben scheinen alles (einschließlich Ihrer XML - Sitemaps * 1 ), sie haben die Datei robots.txt nicht geklont. Tatsächlich blockiert die robots.txt auf dieser Site aktiv das Crawlen von allem! In dieser Hinsicht scheint es also nichts zu tun zu geben. Wenn Sie eine Site-Suche in dieser Domain durchführen, wird nur die nackte Domain und ein Hinweis zurückgegeben, der besagt, dass sie von robots.txt blockiert wird.
(Eher neugierig, was ihre Absicht dabei sein würde? Sie könnten vielleicht einfach annehmen, dass sie einen Fehler mit robots.txt gemacht haben - und das vielleicht auch -, aber das sieht für mich eher nach einer absichtlichen Ausnahme aus?)
Während Ihre XML-Sitemaps geklont werden, aktualisieren sie die darin enthaltenen URLs nicht (wie auf den Hauptseiten der Website), sodass sie weiterhin auf Ihre Website verweisen.
* 1 In Bezug auf die XML-Sitemap (s). Auf Ihrer Site ist "sitemap.xml" tatsächlich eine Weiterleitung zu "sitemap_index.xml" und die geklonte Site hat tatsächlich die Weiterleitung geklont ... die zurück zu Ihrer Site weiterleitet! (Sicherlich ein Fehler von ihrer Seite.) "Sitemap_index.xml" ist nur ein Index, der auf 4 andere Sitemaps verweist. Wenn eine dieser tatsächlichen Sitemaps direkt auf der geklonten Site angefordert wird, werden sie korrekt geklont und die URLs aktualisiert. Ich hätte jedoch gesagt, dass diese Sitemaps aufgrund der anfänglichen Weiterleitung von "sitemap.xml" wahrscheinlich nicht auf der geklonten Site gefunden werden. (?) Obwohl, wenn sie "sitemap_index.xml" direkt übermitteln würden, würde dies offensichtlich die Umleitung umgehen.