Ich möchte einen Kriminalitätsindex und einen politischen Instabilitätsindex aufbauen, die auf Nachrichten basieren

Ich habe dieses Nebenprojekt, bei dem ich die lokalen Nachrichten-Websites in meinem Land crawle und einen Kriminalitätsindex und einen Index für politische Instabilität erstellen möchte. Ich habe bereits den Informationsabrufteil des Projekts behandelt. Mein Plan ist zu tun:

Unbeaufsichtigte Themenextraktion.
Nahezu doppelte Erkennung.
Beaufsichtigte Einstufung und Ereignisstufe (Kriminalität / politisch - hoch / mittel / niedrig).

Ich werde Python und Sklearn verwenden und habe bereits die Algorithmen erforscht, die ich für diese Aufgaben verwenden kann. Ich denke, 2. könnte mir einen Relevanzfaktor für eine Geschichte geben: Je mehr Zeitungen über eine Geschichte oder ein Thema veröffentlichen, desto relevanter für diesen Tag.

Mein nächster Schritt besteht darin, den monatlichen, wöchentlichen und täglichen Index (bundesweit und nach Städten) auf der Grundlage meiner Funktionen zu erstellen. Ich bin hier ein wenig verloren, da die "Instabilitätsempfindlichkeit" mit der Zeit zunehmen könnte. Ich meine, der Index aus dem größten Instabilitätsereignis des letzten Jahres könnte niedriger sein als der Index für dieses Jahr. Auch wenn feste Skala 0-100 verwendet werden soll oder nicht.

Ich möchte später in der Lage sein, Vorfälle auf dieser Basis vorherzusagen, zB ob die Abfolge der Ereignisse in den letzten Wochen zu einem größeren Vorfall führt. Aber im Moment bin ich froh, dass die Klassifizierung funktioniert und das Indexmodell erstellt wird.

Ich würde mich über jeden Hinweis auf ein Papier, relevante Lesungen oder Gedanken freuen. Vielen Dank.

PD: Entschuldigung, wenn die Frage nicht hierher gehört.

UPDATE : Ich habe noch nicht „machen“, aber vor kurzem gab es eine Nachricht über eine Gruppe von Wissenschaftlern , die in einem System arbeiten , um die Ereignisse vorhersagen , mit Nachrichtenarchive und eine entsprechende Papier veröffentlicht Mining die Web Zukünftige Ereignisse vorherzusagen (PDF ).

machine-learning classification text-mining

— Rolando Max
quelle

Für den technischen Teil (die Tools) empfehle ich zwei Bücher als Ausgangspunkt für O'Reiley: Collective Intelligence (mit Python-Code), Machine Learning (mit R-Code) ... um Themen zu erfassen, die sich auf Ihre beziehen. Der nächste Schritt könnte Manning-Website sein ... Für den methodischen Teil würde ich die Semantic Web-Gruppe auf LinkedIn empfehlen.

— Radu Marius Florin

Super wie diese Frage. Halte uns auf dem Laufenden!!

— Entropie

Berücksichtigen Sie Variationen beim GINI-Score.

Es ist normalisiert und die Ausgabe reicht von 0 bis 1.

BEARBEITEN:

Warum GINI "cool" oder zumindest potenziell angemessen ist:

Es ist ein Maß für Ungleichheit oder Ungleichheit. Es wird als skalierungsfreies Maß verwendet, um die Heterogenität von skalierungsfreien Netzwerken, einschließlich unendlicher und zufälliger Netzwerke, zu charakterisieren. Es ist nützlich beim Erstellen von CART-Bäumen, da es das Maß für die Aufteilungskraft einer bestimmten Datenaufteilung ist.

Wegen seiner Reichweite:

Es gibt weniger Rundungsfehler. Bereiche, die weit von 1.0 entfernt sind, neigen dazu, numerische Probleme zu haben.
Es ist für Menschen lesbar und für Menschen zugänglicher. Menschen haben ein konkreteres Verständnis von Objekten als von Milliarden.

Weil es normalisiert ist:

Vergleiche der Punktzahlen sind aussagekräftig. Ein Wert von 0,9 in einem Land bedeutet das gleiche Maß an relativer Uneinheitlichkeit wie ein Wert von 0,9 in einem anderen Land.
Es ist gegen die Lorenz-Kurve normiert, um eine perfekte Gleichmäßigkeit zu erzielen, daher sind die Werte relevante Indikatoren für das Verhältnis der Verteilung der interessierenden Werte zur Lorenz-Kurve.

Verweise:

— EngrStudent - Setzen Sie Monica wieder ein
quelle

Willkommen auf der Site @EngrStudent. Würde es Ihnen etwas ausmachen, etwas mehr über den GINI-Koeffizienten zu sagen und warum ist dies hier die richtige Antwort? Da Sie neu hier sind und anfangen, einen Beitrag zu leisten, möchten Sie vielleicht unsere FAQ lesen , die viele Informationen über die Site enthält.

— gung - Wiedereinsetzung von Monica