Ich habe meine Referenzen als Textdatei mit einer langen Liste von Einträgen und jedem hat zwei (oder mehr) Felder.
Die erste Spalte ist die URL der Referenz. Die zweite Spalte ist der Titel, der je nach Eingabe leicht variieren kann. Gleiches gilt für das dritte Feld, das vorhanden sein kann oder nicht.
Ich möchte Einträge identifizieren, aber nicht entfernen, bei denen das erste Feld (Referenz-URL) identisch ist. Ich weiß davon, sort -k1,1 -u
aber das wird automatisch (nicht interaktiv) alle außer dem ersten Treffer entfernen. Gibt es eine Möglichkeit, mich einfach zu informieren, damit ich auswählen kann, welche ich behalten möchte?
Im folgenden Auszug aus drei Zeilen mit demselben ersten Feld ( http://unix.stackexchange.com/questions/49569/
) möchte ich Zeile 2 beibehalten, da sie zusätzliche Tags (Sortieren, CLI) enthält und die Zeilen 1 und 3 löscht:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Gibt es ein Programm zur Identifizierung solcher "Duplikate"? Dann kann ich manuell bereinigen, indem ich die Zeilen 1 und 3 persönlich lösche.