Ich muss mich mit einem Textklassifizierungsproblem befassen. Ein Webcrawler durchsucht Webseiten einer bestimmten Domain und ich möchte für jede Webseite herausfinden, ob sie nur zu einer bestimmten Klasse gehört oder nicht. Das heißt, wenn ich diese Klasse Positiv nenne , gehört jede gecrawlte Webseite entweder zur Klasse Positiv oder zur Klasse Nicht-Positiv .
Ich habe bereits eine große Anzahl von Schulungswebseiten für die Klasse Positiv . Aber wie erstelle ich ein Trainingsset für die Klasse Non-Positive, das so repräsentativ wie möglich ist? Ich meine, ich könnte im Grunde alles für diese Klasse verwenden. Kann ich nur einige beliebige Seiten sammeln, die definitiv nicht zur Klasse Positiv gehören ? Ich bin mir sicher, dass die Leistung eines Textklassifizierungsalgorithmus (ich bevorzuge die Verwendung eines Naive Bayes-Algorithmus) stark davon abhängt, welche Webseiten ich für die Klasse Nicht positiv auswähle .
Also, was soll ich tun? Kann mir bitte jemand einen Rat geben? Vielen Dank!