Gazetteer oder eine andere Option mit absichtlich festgelegter Größe scheint in wissenschaftlichen Arbeiten ein sehr beliebter Ansatz zu sein, wenn Sie ein Problem mit endlicher Größe haben, z. B. NER in einem festen Korpora oder POS-Tagging oder irgendetwas anderem. Ich würde es nicht als Betrug betrachten, es sei denn, die einzige Funktion, die Sie verwenden werden, ist Gazetteer Matching.
Wenn Sie jedoch eine Art NLP-Modell trainieren, das sich während des Trainings auf ein Wörterbuch stützt, ist die tatsächliche Leistung möglicherweise weitaus geringer als bei den ersten Tests angegeben, es sei denn, Sie können alle relevanten Objekte in den Gazetteer einbeziehen (und warum dann Sie?) Benötigen Sie dieses Modell?), da Ihr trainiertes Modell sich irgendwann auf das Feature stützt und in einem Fall, in dem andere Features zu schwach oder nicht beschreibend sind, neue interessante Objekte nicht erkannt werden.
Wenn Sie in Ihren Modellen einen Gazetteer verwenden, sollten Sie sicherstellen, dass diese Funktion über eine Gegenfunktion verfügt, mit der sich das Modell selbst ausgleichen kann, damit die einfache Wörterbuchübereinstimmung nicht die einzige Funktion der positiven Klasse ist (und was noch wichtiger ist, Gazetteer sollte dies tun) stimmen nicht nur mit positiven, sondern auch mit negativen Beispielen überein.
Angenommen, Sie haben einen vollständigen Satz von unendlichen Variationen aller Personennamen, was die allgemeine Person NER irrelevant macht, aber jetzt versuchen Sie zu entscheiden, ob das im Text erwähnte Objekt zum Singen fähig ist. Sie werden sich auf die Merkmale der Aufnahme in Ihr Personenblatt verlassen, die Ihnen viele falsche Positivmeldungen liefern. Dann fügen Sie ein verbzentriertes Feature von " Ist Thema des Verbsingen " hinzu, und das würde Ihnen wahrscheinlich falsche Positive von allen möglichen Objekten wie Vögeln, Ihrem Bauch, wenn Sie hungrig sind, und einem betrunkenen Kerl geben, der denkter kann singen (aber seien wir ehrlich, er kann nicht) - aber dieses verbzentrierte Merkmal wird mit Ihrem Personenblatt in Einklang gebracht, um Personen und nicht Tieren oder anderen Objekten eine positive Sängerklasse zuzuweisen. Es löst jedoch nicht den Fall eines betrunkenen Darstellers.