Ich möchte den archive.is
Zugriff auf meine Website verweigern . (Ich möchte nicht, dass diese Website meine ohne meine Zustimmung zwischenspeichert).
Wissen Sie, ob es möglich ist?
Ich möchte den archive.is
Zugriff auf meine Website verweigern . (Ich möchte nicht, dass diese Website meine ohne meine Zustimmung zwischenspeichert).
Wissen Sie, ob es möglich ist?
Antworten:
Okay. Dies ist eine neue (zumindest für mich) und bisher ziemlich interessant. Ich werde hier nicht ins Unkraut geraten.
Als ich das schrieb, arbeitete ich an wenig oder gar keinem Schlaf. Ich habe ein paar Dinge verpasst, auf die @unor freundlicherweise hingewiesen hat, und deshalb muss ich meine Antwort mildern und Kredit geben, wo Kredit fällig ist. Danke @unor!
Archive.is ist bei Denis Petrov registriert, der ein Google Webhost-Konto unter der IP-Adresse 104.196.7.222 [AS15169 GOOGLE - Google Inc.] gemäß Domain Tools verwendet, obwohl ich es am 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV] habe. Es ist wahrscheinlich, dass sich das Host-Unternehmen kürzlich geändert hat.
Archive.today gehört ebenfalls Denis Petrov und ähnelt Archive.is, wenn nicht identisch. Für die Zwecke dieser Antwort werde ich mich an Archive.is wenden, und Sie können davon ausgehen, dass dies für Archive.today gilt. Archive.today existiert unter einer anderen IP-Adresse 78.108.190.21 [AS62160 GM-AS Ja Networks Unlimited Ltd]. Bitte haben Sie Verständnis dafür, dass Denis Petrov 70 Domains besitzt. Ohne tiefer zu graben, gibt es möglicherweise mehr Websites, um die man sich Sorgen machen muss. Ich werde Blockierungscode für alle drei IP-Adressen bereitstellen.
Archive.is ist benutzergesteuert. Es wird davon ausgegangen, dass Sie Ihre eigene Seite archivieren. Abgesehen von diesem Szenario kann Archive.is als Spam-Site für Content Scraper betrachtet werden.
Archive.is geht eine gefährliche Linie. Es verwendet den Inhalt anderer Websites durch Scraping einzelner Seiten. Letztendlich wird das Suchpotential des ursprünglichen Inhalts zumindest verwässert und möglicherweise insgesamt usurpiert. Schlimmer noch, die ursprüngliche Website wird nicht als Urheber des Inhalts angegeben. Archive.is verwendet ein kanonisches Tag, das sich jedoch auf einer eigenen Site / Seite befindet.
Beispiel: <link rel="canonical" href="http://archive.is/Eo267"/>
In Verbindung mit dem Mangel an Kontrolle darüber, wer eine Site einreicht und ob sie das Recht auf die Site haben, dem Mangel an eindeutigen Informationen zum Abbau und dem etwas unscharfen und möglicherweise schwachen Kontaktmechanismus hat Archive.is das Potenzial für Real Ärger.
Weitere Informationen zur IP-Adresse finden Sie hier: https://www.robtex.com/#!dns=archive.is
Verwenden der Cisco Firewall.
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.
Verwenden von Nginx.
Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:
deny 78.108.190.21/32;
Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
Verwenden von Microsoft IIS Web Server
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
Verwenden von Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
Verwenden der Cisco Firewall.
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.
Verwenden von Nginx.
Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:
deny 46.17.100.191/32;
Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
Verwenden von Microsoft IIS Web Server
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
Verwenden von Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
Verwenden der Cisco Firewall.
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.
Verwenden von Nginx.
Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:
deny 104.196.7.222/32;
Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
Verwenden von Microsoft IIS Web Server
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
Verwenden von Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
Möglicherweise müssen Sie mehr als eine IP-Adresse aus einem beliebigen Satz von Code blockieren. Das ist nicht klar.
archive.org loses copyright lawsuit
schien keine relevanten Artikel über Entscheidungen zu veröffentlichen.
robots.txt
Archive.is verwendet keinen Bot, der Seiten autonom crawlt (z. B. durch Folgen von Hyperlinks), gilt also robots.txt
nicht, da immer ein Benutzer den Befehl zum Archivieren einer bestimmten Seite gibt.
Aus dem gleichen Grund gehorchen Dienste wie der Feedfetcher von Google ( Warum gehorcht Feedfetcher nicht meiner robots.txt-Datei? ) Und der Validator ( Details ) von W3C nicht robots.txt
.
Siehe die FAQ zu archive.is: Warum gehorcht archive.is robots.txt nicht?
meta
- robots
/X-Robots-Tag
Ich bin mir nicht sicher , ob archive.is soll ( im Idealfall) die Ehre noindex
oder noarchive
in Wert meta
- robots
/ X-Robots-Tag
oder wenn diese Technologien auch nur für autonome Bots gelten. Da archive.is es jedoch nicht dokumentiert, scheinen sie es derzeit nicht zu unterstützen.
(FWIW, jede archivierte Seite scheint eine zu bekommen <meta name="robots" content="index,noarchive"/>
.)
User-Agent
archive.is dokumentiert nicht, dass eine bestimmte User-Agent
verwendet wird (sie identifizieren sich wahrscheinlich nicht, um die Seiten so zu erhalten, als ob sie von einem normalen Browser angezeigt würden), sodass Sie sie nicht verwenden können, um ihren Zugriff auf Serverebene zu blockieren .
Da hier weder robots.txt
noch meta
- robots
/ X-Robots-Tag
arbeiten und Sie sie nicht über ihre blockieren können User-Agent
, müssten Sie Zugriffe von archive.is IPs blockieren. Siehe closetnoc Antwort über IP - Blockierung , aber beachten Sie, dass dies mehr blockieren könnten als gedacht, und Sie können nie alle ihre IP - Adressen (und / oder dem Laufenden halten) fangen.
Jede archivierte Version verweist auf ein Formular, in dem Sie möglichen Missbrauch (Anhängen /abuse
) melden können , z. B. mit den Gründen "SEO-Problem" oder "Urheberrecht". Aber ich weiß nicht, ob oder wie sie mit diesen Fällen umgehen.
Um die widerlichen Diebstahlpraktiken von archive.is zu blockieren (ignorieren von robots.txt, Überschreiben von kanonischen Links, gefälschter Benutzeragenten, keine Möglichkeit zum Entfernen auf der gesamten Website), möchte ich den obigen Lösungen Folgendes hinzufügen.
Um ihre IP-Adressen zu finden, senden Sie ihnen eine URL, die unter Ihrer Kontrolle steht, damit Sie Ihre Webserver-Protokolle überwachen können, um festzustellen, wer auf diese URL zugegriffen hat. Die URL muss nicht einmal vorhanden sein, solange der Webserver die Anfrage empfängt. (Daher ist es besser, eine nicht vorhandene leere Seite / URL zu verwenden.) Verwenden Sie beispielsweise eine URL wie: http://example.com/fuck-you-archive.is
Überprüfen Sie dann Ihre Protokolle, um festzustellen, wer auf die URL zugegriffen hat. Sie können grep verwenden, um dies zu überprüfen:
grep "fuck-you-archive.is" web-server-log.txt
Sobald Sie die IP-Adresse haben, können Sie sie mithilfe der Lösungen aus den anderen Antworten blockieren. Wiederholen Sie den Vorgang erneut, um andere IP-Adressen zu finden, die sie verwenden. Sie müssen eine andere URL angeben, damit sie erneut eine HTTP-Anforderung ausführen. Ändern Sie beispielsweise einfach http://example.com/fuck-you-archive.is in http://example.com/fuck-you- archive.is?2 etc.
Falls Sie Ihre Website beim Versuch, ihre IP-Adressen zu finden, überhaupt nicht verfügbar machen möchten, können Sie diese praktische HTTP-Anforderungswebsite verwenden: https://requestb.in Die folgenden Schritte sind: Erstellen eines RequestBin> Senden Sie die "BinURL" an Archive.is mit der an die BinURL angehängten "? SomeRandomNumber".> Verwenden Sie die "? inspect" von RequestBin, um die eingehende Anfrage von Archive.is zu überwachen und ihre IP-Adresse im "Cf-Connecting-Ip" anzuzeigen "HTTP-Header. (Stellen Sie sicher, dass Sie keine URL "? Inspect" an Archive.is senden.) Wiederholen Sie den Vorgang, um andere IP-Adressen zu finden, indem Sie "? SomeRandomNumber" in eine andere Nummer ändern.
Beachten Sie, dass Sie mit IP-Tabellen blockieren können
/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP
Oft wird die 'INPUT'-Kette jedoch auf eine' DROP'-Richtlinie mit Akzeptanz des HTTP-Verkehrs eingestellt. In diesem Fall müssen Sie möglicherweise eine Voranstelloperation (Einfügen) anstelle einer Anhängeoperation verwenden, andernfalls wird sie überhaupt nicht blockiert:
/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP
Sie haben jedoch viele IP-Adressen, so dass es möglicherweise einfacher ist, vollständige IP-Bereiche zu blockieren. Sie können dies bequem mit IPTables tun (ohne Subnetzmasken angeben zu müssen), indem Sie:
iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP
Dieser Bereich (46.166.139.110-46.166.139.180) gehört zu einem großen Teil ihnen, da ich mehrere Adressen zwischen 46.166.139.110 und 46.166.139.173 gesehen habe.
Sie verwenden derzeit NFOrce als Webhost. Informationen zum Einreichen einer Beschwerde über Archive.is finden Sie unter https://www.nforce.com/abuse . Erwähnen Sie: 1) Ihre Webseiten-URL, die archive.is gestohlen hat, 2) erwähnen Sie die URL bei archive.is, die den gestohlenen Inhalt enthält, und 3) erwähnen Sie die von ihnen verwendeten IP-Adressen.
Vielleicht möchten Sie sich auch bei Cloudflare, dem CDN, beschweren, das die gestohlenen Seiten und Bilder aus Leistungsgründen zwischenspeichert. https://www.cloudflare.com/abuse/
Wie wir sehen können, verwendet archive.is DNS anycasting.
Wenn Sie verschiedene Nameserver verwenden (z. B. von https://www.lifewire.com/free-and-public-dns-servers-2626062 ), erhalten Sie derzeit (2018-09-10) unterschiedliche IP-Adressen für "archive.is" ( dig @NAMESERVER archive.is A)
104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236
Ich habe missbrauch-kontakte.abusix.org ( https://www.abusix.com/contactdb ) verwendet, um die Missbrauchskontakte für diese IP-Adressen zu erhalten:
abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru
Wie Cloudflare berichtete, missbraucht archive.is seine "Dienste", indem es einen DNS-A-Eintrag verwendet, der keine Funktionalität hat!
Wenden Sie sich auch an die Registrare unter www.isnic.is, Islands Domain-Register. isnic at isnic dot is
Island hat das Urheberrecht und das Register erkennt es an. Das Register existiert seit den späten 1980er Jahren und steht nicht unter ICANN.