In Ordnung. Dies wird einer der Fälle sein, in denen ich den Prozess durcharbeiten werde, damit er klarer wird. Es wird etwas lang sein, aber hoffentlich nicht schmerzhaft lang.
Beginnen wir am Anfang, sollen wir?
Ausgehend von dem, was wir über die Funktionsweise von Google wissen, basierend auf dem Forschungsbericht von Brin und Page aus dem Jahr 1997, wissen wir einige Dinge, die heute sehr wahrscheinlich noch im Spiel sind.
Google hat eine URL im Index und in der Abrufwarteschlange und ruft die Seite ab. Der Code für die Seite wird in ihrer Datenbank für verschiedene Verarbeitungsformen gespeichert. Einer der Prozesse wäre, neue Links zu finden. Jeder von Google gefundene Link wird zuerst im Linkindex gefunden, falls vorhanden. Wenn dies nicht der Fall ist, wird der Link zur Verknüpfungstabelle und zur Abrufwarteschlange hinzugefügt.
Jeder Link in der Link-Tabelle enthält mindestens diese Elemente, die Link-URL, die Quell-URL und den Link-Text. Es ist wahrscheinlich, dass es andere Datenelemente gibt, die jedoch die Diskussion nicht vorantreiben. Jeder Link, der zur Link-Tabelle hinzugefügt wird, hat die Quell-URL überprüft, aber nicht unbedingt die Ziel-URL. Am Beispiel relationaler Datenbanken könnten die Quell- und Ziel-URLs eine URL-ID in der URL-Tabelle sein, und eine Verknüpfungstabelle würde die Quell-URL- und Ziel-URL-Elemente der Verknüpfungstabelle mithilfe einer ID zurück zur URL-Tabelle verbinden. Verwirrt? Sei nicht.
In jedem Fall, in dem die Zielseite nicht abgerufen wurde, wird der Link in der Link-Tabelle als baumelnder Link bezeichnet. Sobald die Seite abgerufen wurde, ist der Link innerhalb der Link-Tabelle vollständig. Wenn die Zielseite nicht vorhanden ist, ist der Link in der Link-Tabelle ein fehlerhafter Link. Einfach?
Nur vollständige Links können einen Wert übergeben. Der PageRank-Algorithmus benötigt eine vollständige Verknüpfung, um den Wert zu berechnen. Alle baumelnden und defekten Links stoppen alle Berechnungen, die den Link verwenden. Bisher war PR ein rekursiver Prozess, bei dem Verknüpfungswerte mithilfe der Verknüpfungstabelle immer wieder berechnet wurden, bis der Wert, der an eine Verknüpfung angepasst werden kann, innerhalb eines numerischen Werts liegt, der so klein ist, dass er praktisch keinen Unterschied macht. Ich bin sicher, dass dies immer noch ein Haushaltsprozess ist. PR wird heute jedoch mit einer anderen Methode berechnet, die Hops in einem Netzwerk ähnelt und die Entfernung von einer Seite zur anderen mit relativer Bedeutung misst. Es basiert auf dem Vertrauensnetzwerkmodell, für dessen Emulation das ursprüngliche PageRank-Modell entwickelt wurde. Ein Link ist eine Vertrauensabstimmung von einer Entität zu einer anderen. Während es komplizierter wird als dies, du bekommst das Bild. Es macht effektiv dasselbe wie der rekursive Prozess unter Verwendung einer Echtzeitberechnung, obwohl es wahrscheinlich weniger genau ist, aber genau genug, um zuverlässig zu sein. Dies erfordert vollständige Verknüpfungen, da Vertrauenswerte (unter Verwendung des Vertrauensnetzwerkmodells) nicht übergeben werden können, wenn keine Vertrauensstellung hergestellt wird. Denken Sie daran, dass ein Link eine Vertrauensabstimmung oder ein Link im Vertrauensnetzwerkmodell ist. PageRank wird als Vertrauenswert in einem Vertrauensnetzwerk dargestellt.
Nachdem Sie die Links verstanden haben und wissen, wie wichtig sie sind, können Sie fortfahren.
Für eine Suchmaschine ist es nicht sinnvoll, eine URL zu entfernen. Wenn in der URL-Tabelle keine URL vorhanden ist, können Sie nichts über die URL wissen und sind ratlos. URLs werden wahrscheinlich im Allgemeinen nicht gelöscht, es sei denn, es ist beispielsweise sinnvoll, wenn die URL nicht mehr vorhanden ist. Wenn eine Seite jedoch auf NOINDEX gesetzt ist, wurde die Suchmaschine ausdrücklich angewiesen, die Seite NICHT zu indizieren. Da eine Webseite innerhalb des Index aus zwei Dingen besteht, einer URL und dem HTML-Quellcode, entfernt NOINDEX die Seite an dieser Stelle effektiv. Links zu einer NOINDEX-Seite baumeln zumindest.
Nachdem Sie nun wissen, wie eine indizierte Seite aussieht, können Sie weiter vorgehen.
Es gibt viele Möglichkeiten, wie eine Suchmaschine eine Webseite oder Website bestraft. Einer wird dekotiert. Dies ist die schwerste aller Strafen und die Wiederherstellung dauert lange. Diese Kategorie von Strafen können Sie nachweisen, da die Seite nicht gefunden wird und nicht gefunden werden kann. Außerdem informiert Sie die Googles Search Console in etwa darüber, dass Seiten gelöscht werden. Von den verbleibenden Strafen werden die Strafen in SERP-Filtern angewendet.
Wenn eine Suchabfrage ausgeführt wird, gibt es tatsächlich mehrere Abfragen gleichzeitig für den Index, die dann basierend auf einem Teil des Algorithmus zu einer Ergebnismenge zusammengefügt werden. Der verbleibende Algorithmus, den wir oft als einzelne Entität bezeichnen, ist eine Reihe relativ einfacher SERP-Algorithmen. Die primären Algorithmen ordnen die Ergebnismenge basierend auf Echtzeitmetriken wie Trends neu. Von den Algorithmen werden diejenigen als Filter bezeichnet, die Einträge aus der Ergebnismenge entfernen oder die Platzierung eines Eintrags in der Ergebnismenge ernsthaft herabstufen. Einer, der angewendet wird, ist der Filter, der DMCA behandelt, wie mit belegt...we have removed 1 result(s) from this page...
Sind nun, da Sie wissen, wie Strafen angewendet werden, Links, PR- und DMCA-Filter verbunden?
Wir wissen, dass ein Filter angewendet wurde. Dies hat jedoch nichts mit dem Link-Index zu tun, mit dem der PageRank berechnet wird. Es ist so weit wie möglich vom Link- / PR-Prozess entfernt. Links und PR stehen am Anfang des Indizierungsprozesses, während das Entfernen der DMCA-bestraften Seite am Ende des Abfrageprozesses steht. Tatsächlich sind dies zwei völlig getrennte Motoren. Während eine Seite aufgrund einer DMCA-Beschwerde möglicherweise entfernt wird, wird sie nicht tatsächlich aus dem Index entfernt, und daher werden weiterhin Links zu und von der Seite berechnet.
Klar wie Schlamm? Ich hoffe, dass ich das gut erklärt habe. Bitte lassen Sie mich wissen, ob ich etwas für Sie klären kann.
[Aktualisieren]
Eine Ausnahme, die nicht für das OP-Szenario gilt.
@StephenOstermiller bringt einen guten Punkt vor, der das oben Gesagte nicht untergräbt. Der Vollständigkeit halber möchte ich ihn jedoch hinzufügen.
Wie Sie wissen, erfordert das Bewerten einer Website oder Seite innerhalb der Suche viele Faktoren. Dies ist zwar nicht so technisch oder mystisch, wie Sie sich vorstellen können, aber es sind immer noch viele oder Faktoren abzuwägen. Ich habe den Effekt von Vertrauensbewertungen hauptsächlich deshalb vergessen, weil er im Fall des OP nicht zutraf. Also füge ich es hier hinzu.
Offensichtlich gibt es Websites, die nichts nützen, wie Spam-Websites. Innerhalb dieser Klassifizierung von Websites befinden sich Websites, die gewohnheitsmäßig Urheberrechtsinhalte missbrauchen. Dies war vor vielen Jahren ein großes Problem, bei dem Content Scraper Websites aus Ihrer harten Arbeit zusammenstellten. Lange Zeit wurde nichts getan. Die Websites mit Originalinhalten würden ziemlich konsistent an die Scraper-Websites verlieren. Ich sollte wissen. Ich hatte zwei PR 8-Sites, die fast den gesamten Datenverkehr aufgrund von Scraper-Sites ohne jeglichen Rückgriff verloren haben.
Die Dinge haben sich jedoch geändert. Und es sind erst vier Jahre vergangen, seit die bedeutenden Veränderungen begonnen haben.
Für diese spezielle Klassifizierung von Websites kann die Vertrauensbewertung der Websites erheblich reduziert werden. Das ist bekannt. Es dauert Jahre, um die Vertrauenswerte wiederherzustellen, und bei einigen Websites kann dies niemals passieren. Warum glauben Sie beispielsweise, dass Domain-Monetisierer so bereit sind, eine Website mit Hunderttausenden, die in den Startlöchern auf denselben Missbrauch warten, gründlich zu zerstören? Dies liegt daran, dass eine Domain in Wirklichkeit ihren Wert über die Einlösung hinaus ruinieren kann.
Es gibt viele Faktoren, die zur Vertrauensbildung beitragen. Darauf werde ich hier nicht eingehen. Beachten Sie jedoch, dass Vertrauen eine wichtige Komponente beim Aufbau des Ranges für jede Site ist.
Das heißt, für jede Site, die einen schwerwiegenden Verstoß gegen die DMCA mit einer ziemlich umfangreichen Erfolgsbilanz darstellt, würde die Vertrauensbewertung ernsthaft beeinträchtigt. Dies ist nicht das Szenario, das das OP beschreibt. Es ist jedoch das Szenario, das ich hier annehme.
Links und das Einrichten von PageRank bestehen aus mehr als einer Komponente. Einer ist der PageRank (Autorität) der Seite selbst. Für sehr maßgebliche Seiten gibt es eine Berechtigungsobergrenze. Eine PR 8-Seite teilt keinen Wert von 8 unter den Links auf dieser Seite. Dies ist Teil des ursprünglichen PageRank-Algorithmus, mit dem PR eine natürlichere Kurve erhalten soll. Andernfalls wäre es für eine neue Seite selbst nach langer Zeit nahezu unmöglich, mit einer Seite mit hoher Autorität zu konkurrieren. Der Wert des Links selbst wird anhand verschiedener Faktoren bewertet, einschließlich des semantischen Werts des Linktextes, der Link-URL, der Position des Links (Bekanntheit), des semantischen Werts des Inhaltsblocks, der den Link enthält, falls zutreffend usw. Alle Links werden von 0 bis 0,9 bewertet. Die Berechnung der Berechtigungs- und Linkbewertung ist der Wert, der von einem Link übergeben wird.
Schön und gut. Wie wirkt sich dies auf eine Website aus, die einen wesentlichen Verstoß gegen die DMCA darstellt?
Der Wert eines eingehenden Links wird nicht unbedingt durch die Vertrauensbewertung der Zielwebsite beeinflusst, da der Wert der Links von der Quellwebsite stammt. Jeder ausgehende Link könnte jedoch sein. Die Autorität einer Site, die einen signifikanten DMCA-Missbraucher darstellt, wird durch die Vertrauensbewertung beeinflusst. Autorität kommt schließlich aus Vertrauen. Auf diese Weise würde der Wert eines eingehenden Links nicht über ausgehende Links weitergeleitet, ohne dass dies abhängig von der Vertrauensbewertung beeinträchtigt wird.
Dies ändert die Antwort etwas.
Dies gilt zwar nicht für das OP-Szenario, es gibt jedoch ein Szenario, in dem ein eingehender Linkwert mit einer DMCA-Verletzung nicht vollständig über die Site übertragen wird. Dies ist jedoch ein schwieriger Fall, und daher ist der Schwellenwert, bevor dies geschieht, erheblich.