Gibt es eine Möglichkeit, Suchmaschinenverzerrungen zu erkennen?


9

Suchmaschinen werden zunehmend als Informationstorhüter eingesetzt, doch die Kriterien, nach denen Suchmaschinen die Ergebnisse bewerten, sind für Benutzer undurchsichtig. Wie können Benutzer sicher sein, dass ihre Ergebnisse nicht voreingenommen oder in irgendeiner Weise manipuliert sind, um ein gewisses Interesse auf Kosten der Qualität der Suchergebnisse zu fördern?

Regierungen fordern routinemäßig, dass Suchanbieter das Ranking von Websites entfernen oder senken, die als politisch unerwünscht gelten. Unternehmen können Anbieter dafür bezahlen, bestimmte Ergebnisse gegenüber anderen zu steigern, um ihre Einnahmen zu steigern. Firewalls können sich in die Ergebnisse einmischen, bevor sie an Benutzer zurückgesendet werden.

Selbst scheinbar harmlose Änderungen an Ranking-Algorithmen, die möglicherweise nicht auf der Oberfläche voreingenommen zu sein scheinen, könnten tatsächlich so konzipiert sein, dass sie Websites schaden, die einige gemeinsame Attribute aufweisen (unabhängig von der tatsächlichen Qualität).

Ist es möglich, eine Verzerrung der Suchmaschine zu erkennen, indem beispielsweise die Ergebnisse über einen bestimmten Zeitraum überwacht und bewertet wird, ob eine "versteckte Variable" (möglicherweise eine politische Zugehörigkeit) ein treibender Faktor für die Änderung des Website-Rankings ist?

Ein hinterhältiger Anbieter kann im Laufe der Zeit das Ranking von Zielwebsites (und möglicherweise auch von zufälligen Websites, um Benutzer abzulenken) schrittweise senken. Was sind die Grenzen dafür, wie viel Verzerrung ein Anbieter ohne Erkennung einführen kann? Oder ist es möglich, solche Interferenzen immer zu verbergen, indem gewichtete Ranking-Kriterien, die im Übrigen das beabsichtigte Ergebnis liefern, falsch ausgewählt werden (durch "Data Snooping").

Ändert sich etwas davon, wenn die Ranking-Kriterien veröffentlicht werden? Müssen wir die Kriterien, die Suchmaschinen verwenden, als Open Source anbieten?

Dies erinnert mich an das Ergebnis, dass die Feststellung, ob ein komplexes Finanzinstrument wie ein CDO vom Verkäufer manipuliert wurde oder nicht, der Lösung des Problems des dichtesten Subgraphen gleichkommt:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Vielen Dank!


4
Dies ist eine coole Frage, aber ich würde sie überarbeiten, indem ich sicherstellen würde, dass nur eine theoretische Frage gestellt wird. Am naheliegendsten ist es, dies zu einer Referenzanfrage zu machen und zu fragen: "Hat sich das schon jemand angesehen?". Wenn Sie sicher sind, dass niemand hat, dann so etwas wie "Wie kann dies formal modelliert werden?" könnte eine gute Frage sein. Wenn Sie zu viele Fragen behalten, von denen einige möglicherweise nicht mit der Theorie zusammenhängen, wird sie möglicherweise als "keine echte Frage" geschlossen.
Artem Kaznatcheev

Wenn Sie ein Ranking-Schema veröffentlichen, können Spammer es angreifen. Eine interessante Variante wäre: "Gibt es ein 'Public-Key'-Äquivalent für Rankings
?

@SureshVenkat "Ein Ranking-Schema öffentlich zu machen, öffnet es für Angriffe" klingt so, als würden Sie <s> Sicherheit </ s> Unparteilichkeit durch Dunkelheit vorschlagen;).
Artem Kaznatcheev

Nein, aber deshalb habe ich nach Public-Key-Versionen von Ranking-Schemata gefragt.
Suresh Venkat

Da keine der am Suchprozess beteiligten Parteien böswillige Benutzer sein sollen, besteht eine normale Lösung darin, den Prozess als Spiel mit selbstsüchtigen Benutzern zu modellieren. Bei korrekter Modellierung können wir herausfinden, ob es für die Suchmaschinen von Vorteil ist, so etwas zu tun oder nicht. Dann können wir einen Mechanismus entwerfen, um eine solche Manipulation zu verhindern.
Helium

Antworten:


3

Dies ist offensichtlich eine sehr offene Frage, aber um beim Thema zu bleiben, hier ein CS-theoretischer Ansatz für die Idee der "Fairness" und wie man sie durchsetzen kann.

"Fairness durch Bewusstsein" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.