Welche Datenbanktechnologien verwenden große Suchmaschinen? [geschlossen]


Antworten:


21

Ich bin sicher, dass es eine Kombination von Dingen gibt:

  • ernsthafte Hardware
  • viele davon - Daten werden über viele Knoten und verschiedene Rechenzentren verteilt und repliziert

    • (Eigentlich glaube ich, dass sie im Google-Fall Tausende und Abertausende von wirklich Low-End-Servern haben.)
  • Die Ergebnisse vieler gängiger Abfragen werden zwischengespeichert. Beachten Sie, dass sie potenzielle Suchvorgänge nach Dingen auffüllen, von denen Sie wissen, dass Sie noch nie zuvor danach gesucht haben. Sie sagen voraus, wonach Sie suchen könnten, und hoffen, dass sie Ihr Ergebnis bereits vorberechnet und irgendwo zwischengespeichert haben. In vielen Fällen ist dies der Fall - es gibt nicht viele Suchanfragen, die Sie heute bei Google finden könnten und die noch nicht von jemandem vor Ihnen gestellt wurden. Wenn sie einen neuen Suchbegriff erhalten, verwenden sie wahrscheinlich so etwas wie eine Freitextsuche - und ich würde erwarten, dass Schlüsselwörter semantisch extrahiert werden, wenn eine Seite zum ersten Mal gecrawlt wird, anstatt zu versuchen, Schlüsselwörter im Dokument zu finden, nachdem Sie nach ihnen gesucht haben . Natürlich müssen sie diese Caches in regelmäßigen Abständen ungültig machen und den Page Rank neu berechnen.

34

Tauben .

Das Herzstück von Googles Suchtechnologie ist PigeonRank ™ , ein System zum Ranking von Webseiten, das von den Google-Gründern Larry Page und Sergey Brin von der Stanford University entwickelt wurde:

Bildbeschreibung hier eingeben

Aufbauend auf der bahnbrechenden Arbeit von BF Skinner schlussfolgerten Page und Brin, dass kostengünstige Taubencluster (PC) verwendet werden könnten, um den relativen Wert von Webseiten schneller zu berechnen als menschliche Editoren oder maschinenbasierte Algorithmen. Und während bei Google täglich Dutzende von Ingenieuren daran arbeiten, jeden Aspekt unseres Service zu verbessern, bietet PigeonRank weiterhin die Grundlage für alle unsere Websuchwerkzeuge.

Warum Googles patentierter PigeonRank ™ so gut funktioniert

Der Erfolg von PigeonRank beruht in erster Linie auf der hervorragenden Trainingsfähigkeit der Haustaube (Columba livia) und ihrer einzigartigen Fähigkeit, Objekte unabhängig von der räumlichen Ausrichtung zu erkennen. Die gewöhnliche graue Taube kann leicht zwischen Elementen unterscheiden, die nur die geringsten Unterschiede aufweisen. Dadurch kann sie relevante Websites aus Tausenden ähnlicher Seiten auswählen.

Durch das Sammeln von Taubenschwärmen in dichten Clustern kann Google Suchanfragen mit einer Geschwindigkeit verarbeiten, die der herkömmlicher Suchmaschinen überlegen ist, bei der Raubvögel, brütende Hühner oder sich langsam bewegende Wasservögel für ihre Relevanzklassifizierungen eingesetzt werden.

Wenn eine Suchanfrage an Google gesendet wird , wird sie an ein Datencenter weitergeleitet, in dem Flash-Ergebnisseiten mit rasender Geschwindigkeit überwacht werden . Wenn eine der Tauben im Cluster ein relevantes Ergebnis beobachtet , schlägt sie mit ihrem Schnabel auf eine gummierte Stahlstange, die der Seite den PigeonRank-Wert Eins zuweist. Für jeden Pick erhöht sich der PigeonRank . Die Seiten, die die meisten Picks erhalten, werden oben auf der Ergebnisseite des Benutzers zurückgegeben. Die anderen Ergebnisse werden in der Peckreihenfolge angezeigt.


6
Hinweis: Diese Seite wurde für Aprilscherz - 2002
dr jimbob

19

Es ist wichtig, ein paar Dinge über Google zu beachten:

  • Ihre Datenbank ist die proprietäre BigTable - sie wurde von GOOGLE speziell für ihre Anforderungen entwickelt

  • Die proprietäre Datenbank des Unternehmens basiert auf dem proprietären Dateisystem Google File System. Auch dieses wurde von GOOGLE entwickelt, um mit gängiger Standardhardware problemlos erweitert werden zu können. Wie Aaron in seiner Antwort erwähnt hat, haben sie eine große Anzahl von durchschnittlichen Servern anstelle einer kleinen Anzahl von sehr leistungsfähigen Servern.

Sie speichern einzelne Tabellen über mehrere Computer hinweg, um den Zugriff zu beschleunigen. Ihre Software weiß, welche Daten sich auf welchem ​​Computer befinden, und statt eine Festplatte zu durchsuchen, um sie zu lokalisieren, kann sie direkt mit den relevanten Informationen zum Server geleitet werden.



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.