Wie können wir zwischen menschlichem und Bot-Verhalten unterscheiden?

Aktualisiert basierend auf Kommentaren:

Auf welche Weise können wir einen Menschen unterscheiden, der bestimmte Aktivitäten online ausführt, und einen Bot, der für ähnliche Aktivitäten programmiert ist, z. B. E-Mails abrufen, Musikdateien herunterladen, bei eBay einkaufen, bei Google suchen usw. oder vielleicht versuchen, eine Website zu entstellen / hacken , Brute Force ein Login-Passwort etc.

Um den Umfang der Frage einzuschränken und klarer zu machen, beschränken wir unsere Beobachtungen nur auf netzwerkorientiertes Verhalten. Einige Beispiele sind die Zeit, die für die Online-Ausführung von XYZ-Dingen aufgewendet wurde, die Menge / Art der Daten, von denen (sagen wir) heruntergeladen wurde eine Filesharing-Website, die Anzahl der Freunde / Follower auf Social Media-Websites usw.

Ich denke, es sollte möglich sein, einige "Muster" zu erhalten, die menschliches Verhalten und programmiertes Verhalten unterscheiden.

Der Turing-Test ist nicht das, wonach ich suche.

Welche Techniken können hier nützlich sein? Maschinelles Lernen? Spieltheorie?

Verweise auf relevante akademische / Forschungsartikel sind ebenfalls gut.

— pnp
quelle

Siehe den Turing-Test . Siehe auch Ken Regans Projekt zur Erkennung von Betrug im Schach .

— Jonas G. Drange

Eine Referenzanfrage wie Ihre ist für Stack Exchange zu weit gefasst - Sie fordern eine Übersicht über ein ganzes Forschungsgebiet! Sie müssen Ihren Fokus erheblich einschränken, bevor eine Frage von angemessenem Umfang auftritt. Sprechen Sie mit Ihren Beratern, suchen Sie mit Google Scholar und lesen Sie diesen Leitfaden, um eine bessere (erneute) Suche in Academia zu erreichen .

— Raphael

Der gebräuchlichste / offensichtlichste Weg ist ein Challenge-Response-Test, der für Menschen einfach, für Computer jedoch schwierig ist (natürlich, aber nicht nur CAPTCHA ).

Diese Art von Test ist sehr effektiv {1}, fällt jedoch unter den Bereich HIP (Human Interactive Proofs): Er ist nicht transparent.

Typische "einfache" Ansätze zur Unterscheidung des menschlichen Website-Verkehrs von Bot sind:

Zeit, die benötigt wird, um alle Felder auszufüllen und auf die Schaltfläche "Senden" eines Eingabeformulars zu klicken (häufig verwendet, aber einfach zu umgehen).

Das Beobachten der Trittfrequenz / des Tempos der Kommunikation ist eine sicherere Alternative (dies ist eine der Funktionen von Googles No CAPTCHA reCAPTCHA ).
Honeypots (dh Fallen für Bots, die aus einem Link oder Feld auf der Seite bestehen, das für das menschliche Auge nicht sichtbar ist)
Analyse der maximalen kontinuierlichen Sitzungsdauer (Menschen müssen sich ausruhen) und der Korrelation mit der Tageszeit (siehe Unterscheiden von Menschen von Bots in Websuchprotokollen )

Es muss berücksichtigt werden, dass Bot-Eigenschaften eine große Variabilität für verschiedene Crawler / verschiedene Sites aufweisen . Daher ist es schwierig, einfache, deterministische Heuristiken abzuleiten: Regelbasierte Systeme implizieren eine lange Liste statischer Regeln, die (selbst von Experten) schwer zu definieren und zu pflegen sind. .

Techniken des maschinellen Lernens werden häufig verwendet:

Webrobotererkennung: Ein probabilistischer Argumentationsansatz erstellt ein Bayes'sches Netzwerk , das automatisch Protokollsitzungen als vom Crawler oder vom Menschen induziert klassifiziert
Die Ermittlung von Webrobotersitzungen anhand ihrer Navigationsmuster verwendet den C4.5-Entscheidungsbaumalgorithmus (nach Ableitung der Sitzungsfunktionen).
Das Erkennen von Klickbetrug in Pay-per-Click-Streams von Online-Werbenetzwerken entwickelt von Bloom Filter abgeleitete Techniken .
Neuronale Netze angewandt Geschwindigkeitserfassung in Online - Computerspielen Betrug nimmt ein künstliches neuronales Netz für Bot - Erkennung in MMORPG s
Verwenden von Sentiment, um Bots auf Twitter zu erkennen: Sind Menschen einfühlsamer als Bots? versucht Gaußsche naive Bayes, Support Vector Machines und Random Forests

Fast jedes verfügbare AI / ML- "Tool" wurde experimentiert . Das Hauptproblem bei der Verwendung dieser überwachten Tools für maschinelles Lernen ist die Kennzeichnung des Trainingsdatensatzes.

Selbst wenn die Analyse auf netzwerkorientiertes Verhalten beschränkt wird, ist dies eine Frage von enormem Umfang. Aus diesem Grund gebe ich einige Schlüsselwörter für die weitere Suche an.

Anmerkungen

Auf maschinellem Lernen basierende Angriffe verbessern sich und CAPTCHAs dienen auch als Benchmark-Aufgabe für Technologien für künstliche Intelligenz (z. B. The End is Nigh: Generisches Lösen von textbasierten CAPTCHAs ).

Schlüsselwörter

HIP (Human Interactive Proofs), CAPTCHA, Tastendynamik, Tastendruckkadenz, Typendynamik, IDS (Intrusion Detection System), Honeypot, Klickbetrug, Spambot

Verweise

Entwerfen von Human Friendly Human Interaction Proofs (HIPs) von Kumar Chellapilla, Kevin Larson, Patrice Simard und Mary Czerwinski (Microsoft Research)
Das Ende ist nahe: Generisches Lösen textbasierter CAPTCHAs von Elie Bursztein, Jonathan Aigrain, Angelika Moscicki und John C.Mitchell (2014)
Keystroke Dynamics-Benutzerauthentifizierung basierend auf dem Gaußschen Mischungsmodell und Deep Belief Nets von Yunbin Deng, Yu Zhong (2013)
Benutzerauthentifizierung durch Eingabe biometrischer Merkmale von Lívia CF Araújo, Luiz HR Sucupira Jr., Miguel G. Lizárraga, Lee L. Ling und João BT Yabu-Uti (2005)
Unterscheiden von Menschen von Bots in Web-Suchprotokollen von Omer M. Duskin Dror, G. Feitelson
Webrobotererkennung : Ein probabilistischer Argumentationsansatz von Athena Stassopouloua, Marios D. Dikaiakos (2008)
Eine Untersuchung des WWW- Crawlerverhaltens : Charakterisierung und Metriken von MD Dikaiakos, A. Stassopoulou, L. Papageorgiou (Computer Communications, 2005)
Entdeckung von Webrobotersitzungen anhand ihrer Navigationsmuster von Pang-Ning Tan, Vipin Kumar (2002)
Menschen und Computer automatisch auseinanderhalten von Luis von Ahn, Manuel Blum und John Langford (Comm. ACM, 2004)
Aufdeckung von Klickbetrug in Pay-per-Click-Streams von Online-Werbenetzwerken von Linfeng Zhang, Young Guan (IEEE, 2008)
Bots Problem in Online-Spielen von Dewanshu Jain, Alok Gupta
Neuronale Netze zur Beschleunigung der Betrugserkennung in Online-Computerspielen von Gaspareto, Barone, Schneider (2008)
Quantifizierung von Online-Werbebetrug: Ad-Click-Bots gegen Menschen von Adrian Neal, Sander Kouwenhoven (2015)
Vergleich von Klassifizierungsalgorithmen, um Bots und Menschen auseinander zu halten von Christian Hadiwijaya Saputra, Erwin Adi, Shintia Revina und Bina Nusantara (2014)
Verwenden von Sentiment, um Bots auf Twitter zu erkennen: Sind Menschen einfühlsamer als Bots? von John P. Dickerson, Vadim Kagan, VS Subrahmanian (2014)

— Manlio
quelle