Weiß jemand, wie Google oder Yahoo bei sehr großen Datenmengen nach Stichwörtern suchen? Welche Art von Datenbank oder Technologien setzen sie dafür ein?
Es dauert nur wenige Millisekunden, aber es werden mehr als eine Milliarde Seiten indiziert.
Weiß jemand, wie Google oder Yahoo bei sehr großen Datenmengen nach Stichwörtern suchen? Welche Art von Datenbank oder Technologien setzen sie dafür ein?
Es dauert nur wenige Millisekunden, aber es werden mehr als eine Milliarde Seiten indiziert.
Antworten:
Ich bin sicher, dass es eine Kombination von Dingen gibt:
viele davon - Daten werden über viele Knoten und verschiedene Rechenzentren verteilt und repliziert
Tauben .
Das Herzstück von Googles Suchtechnologie ist PigeonRank ™ , ein System zum Ranking von Webseiten, das von den Google-Gründern Larry Page und Sergey Brin von der Stanford University entwickelt wurde:
Aufbauend auf der bahnbrechenden Arbeit von BF Skinner schlussfolgerten Page und Brin, dass kostengünstige Taubencluster (PC) verwendet werden könnten, um den relativen Wert von Webseiten schneller zu berechnen als menschliche Editoren oder maschinenbasierte Algorithmen. Und während bei Google täglich Dutzende von Ingenieuren daran arbeiten, jeden Aspekt unseres Service zu verbessern, bietet PigeonRank weiterhin die Grundlage für alle unsere Websuchwerkzeuge.
Warum Googles patentierter PigeonRank ™ so gut funktioniert
Der Erfolg von PigeonRank beruht in erster Linie auf der hervorragenden Trainingsfähigkeit der Haustaube (Columba livia) und ihrer einzigartigen Fähigkeit, Objekte unabhängig von der räumlichen Ausrichtung zu erkennen. Die gewöhnliche graue Taube kann leicht zwischen Elementen unterscheiden, die nur die geringsten Unterschiede aufweisen. Dadurch kann sie relevante Websites aus Tausenden ähnlicher Seiten auswählen.
Durch das Sammeln von Taubenschwärmen in dichten Clustern kann Google Suchanfragen mit einer Geschwindigkeit verarbeiten, die der herkömmlicher Suchmaschinen überlegen ist, bei der Raubvögel, brütende Hühner oder sich langsam bewegende Wasservögel für ihre Relevanzklassifizierungen eingesetzt werden.
Wenn eine Suchanfrage an Google gesendet wird , wird sie an ein Datencenter weitergeleitet, in dem Flash-Ergebnisseiten mit rasender Geschwindigkeit überwacht werden . Wenn eine der Tauben im Cluster ein relevantes Ergebnis beobachtet , schlägt sie mit ihrem Schnabel auf eine gummierte Stahlstange, die der Seite den PigeonRank-Wert Eins zuweist. Für jeden Pick erhöht sich der PigeonRank . Die Seiten, die die meisten Picks erhalten, werden oben auf der Ergebnisseite des Benutzers zurückgegeben. Die anderen Ergebnisse werden in der Peckreihenfolge angezeigt.
Es ist wichtig, ein paar Dinge über Google zu beachten:
Ihre Datenbank ist die proprietäre BigTable - sie wurde von GOOGLE speziell für ihre Anforderungen entwickelt
Die proprietäre Datenbank des Unternehmens basiert auf dem proprietären Dateisystem Google File System. Auch dieses wurde von GOOGLE entwickelt, um mit gängiger Standardhardware problemlos erweitert werden zu können. Wie Aaron in seiner Antwort erwähnt hat, haben sie eine große Anzahl von durchschnittlichen Servern anstelle einer kleinen Anzahl von sehr leistungsfähigen Servern.
Sie speichern einzelne Tabellen über mehrere Computer hinweg, um den Zugriff zu beschleunigen. Ihre Software weiß, welche Daten sich auf welchem Computer befinden, und statt eine Festplatte zu durchsuchen, um sie zu lokalisieren, kann sie direkt mit den relevanten Informationen zum Server geleitet werden.
Google verwendet keine traditionelle relationale Datenbanktechnologie. Es entwickelte seine eigene Technologie, große Tabelle und Karte zu reduzieren. Die Originalarbeiten sind hier: Big Table und Map / Reduce . Interessant ist auch die SSTable-Tabelle für sortierte Zeichenfolgen .
Ähnliche Technologien werden jetzt in Hadoop und in den NoSQL-Datenbanken verwendet .
Lesen Sie Steven Levys " In The Plex: Wie Google unser Leben denkt, funktioniert und gestaltet ". Dieses Buch ist eine faszinierende Lektüre über alles, was Google zu bieten hat, und behandelt auf hohem Niveau einige der Technologien und Techniken, die hinter der Suche stehen. Aaron fasst es in seiner Antwort sehr gut zusammen und Levys Buch wird Ihnen einige Details darüber geben, wie sie es tun.