Ich habe viele Adresszeichenfolgen:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Ich möchte sie in ihre Bestandteile zerlegen:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in vielen Sprachen, sind unterschiedlich geschrieben, enthalten Rechtschreibfehler, fehlen, enthalten zusätzlichen Müll usw.
Gegenwärtig besteht unser Ansatz darin, Regeln in Kombination mit dem Fuzzy-Gazetteer-Matching zu verwenden. Wir möchten jedoch die Techniken des maschinellen Lernens untersuchen. Wir haben Trainingsdaten für betreutes Lernen gekennzeichnet. Die Frage ist, was für ein maschinelles Lernproblem ist das? Es scheint nicht wirklich ein Clustering, eine Klassifizierung oder eine Regression zu sein.
Am ehesten könnte ich mir vorstellen, jedes Token zu klassifizieren, aber dann möchten Sie wirklich alle gleichzeitig klassifizieren, um Bedingungen wie "Es sollte höchstens ein Land geben" zu erfüllen. Tatsächlich gibt es viele Möglichkeiten, einen String zu tokenisieren, und Sie möchten jeden ausprobieren und den besten auswählen.
Also: Welche maschinellen Lerntechniken könnte ich zum Parsen von Adressen ausprobieren?