C ++ 11, 38272 Buchstaben, als optimal erwiesen
Dieser Algorithmus garantiert eine niedrigere Grenze für die Lösung. In diesem Fall ist es möglich, die Untergrenze zu erreichen und eine optimale Lösung mit 38272 Buchstaben auszugeben. (Dies entspricht der Lösung, die von Daves gierigem Algorithmus gefunden wurde. Ich war überrascht und ein wenig enttäuscht, als ich herausfand, dass es optimal ist, aber da sind wir.)
Es funktioniert durch Lösen des Minimalkostenflusses in dem Netzwerk, das wie folgt aufgebaut ist.
- Erstens sind alle Wörter, die in anderen Wörtern enthalten sind, überflüssig; wirf sie weg.
- Für jedes Wort w , ziehen zwei Knoten w _0 und w _1, wo w _0 ist eine Quelle mit einer Kapazität von 1 und w _1 ist eine Wanne mit Kapazität 1.
- Zeichnen Sie für jedes (strenge) Präfix oder Suffix eines Wortes einen Knoten a .
- Zeichnen Sie für jedes Suffix a von w einen Bogen von w _0 bis a mit der Kapazität 1 und kosten Sie 0.
- Zeichnen Sie für jedes Präfix a von w einen Bogen von a bis w _1 mit Kapazität 1 und Kostenlänge ( w ) - Länge ( a ).
Jede Zeichenfolge mit der Länge n , die jedes Wort enthält, kann in diesem Netzwerk zu höchstens n Kosten in einen Datenfluss umgewandelt werden . Daher ist der minimale Kostenfluss in diesem Netzwerk eine Untergrenze für die Länge des kürzesten solchen Strings.
Wenn wir Glück haben - und in diesem Fall auch -, dann, nachdem wir den eingehenden Fluss umgeleitet haben w_1 eintritt, zurück aus w eingehenden _0 einen optimalen Fluss mit nur einer verbundenen Komponente, der den Knoten für den leeren durchläuft Zeichenfolge. In diesem Fall enthält es einen Eulerschen Kreis, der dort beginnt und endet. Eine solche Eulersche Schaltung kann als eine Kette optimaler Länge ausgelesen werden.
Wenn wir kein Glück hatten, fügen Sie einige zusätzliche Bögen zwischen der leeren Zeichenfolge und den kürzesten Zeichenfolgen in den anderen verbundenen Komponenten hinzu, um sicherzustellen, dass eine Euler-Schaltung vorhanden ist. Die Zeichenfolge wäre in diesem Fall nicht mehr unbedingt optimal.
Ich benutze die LEMON- Bibliothek für ihre Min-Cost-Flow- und Euler-Schaltungsalgorithmen. (Ich habe diese Bibliothek zum ersten Mal verwendet und war beeindruckt - ich werde sie auf jeden Fall wieder für zukünftige Anforderungen an Grafikalgorithmen verwenden.) LEMON wird mit vier verschiedenen Minimum-Cost-Flow-Algorithmen geliefert. Sie können sie hier mit versuchen --net
, --cost
, --cap
, und --cycle
(Standard).
Das Programm läuft in 0,5 Sekunden ab und erzeugt diese Ausgabezeichenfolge .
#include <iostream>
#include <string>
#include <unordered_map>
#include <unordered_set>
#include <vector>
#include <lemon/core.h>
#include <lemon/connectivity.h>
#include <lemon/euler.h>
#include <lemon/maps.h>
#include <lemon/list_graph.h>
#include <lemon/network_simplex.h>
#include <lemon/cost_scaling.h>
#include <lemon/capacity_scaling.h>
#include <lemon/cycle_canceling.h>
using namespace std;
typedef lemon::ListDigraph G;
struct Word {
G::Node suffix, prefix;
G::Node tour_node;
};
struct Edge {
unordered_map<string, Word>::iterator w;
G::Arc arc;
};
struct Affix {
vector<Edge> suffix, prefix;
G::Node node;
G::Node tour_node;
};
template<class MCF>
bool solve(const G &net, const G::ArcMap<int> &lowerMap, const G::ArcMap<int> &upperMap, const G::ArcMap<int> &costMap, const G::NodeMap<int> &supplyMap, int &totalCost, G::ArcMap<int> &flowMap)
{
MCF mcf(net);
if (mcf.lowerMap(lowerMap).upperMap(upperMap).costMap(costMap).supplyMap(supplyMap).run() != mcf.OPTIMAL)
return false;
totalCost = mcf.totalCost();
mcf.flowMap(flowMap);
return true;
}
int main(int argc, char **argv)
{
clog << "Reading dictionary from stdin" << endl;
unordered_map<string, Affix> affixes;
unordered_map<string, Word> words;
unordered_set<string> subwords;
G net, tour;
G::ArcMap<int> lowerMap(net), upperMap(net), costMap(net);
G::NodeMap<int> supplyMap(net);
string new_word;
while (getline(cin, new_word)) {
if (subwords.find(new_word) != subwords.end())
continue;
for (auto i = new_word.begin(); i != new_word.end(); ++i) {
for (auto j = new_word.end(); j != i; --j) {
string s(i, j);
words.erase(s);
subwords.insert(s);
}
}
words.emplace(new_word, Word());
}
for (auto w = words.begin(); w != words.end(); ++w) {
w->second.suffix = net.addNode();
supplyMap.set(w->second.suffix, 1);
w->second.prefix = net.addNode();
supplyMap.set(w->second.prefix, -1);
for (auto i = w->first.begin(); ; ++i) {
affixes.emplace(string(w->first.begin(), i), Affix()).first->second.prefix.push_back(Edge {w});
affixes.emplace(string(i, w->first.end()), Affix()).first->second.suffix.push_back(Edge {w});
if (i == w->first.end())
break;
}
w->second.tour_node = tour.addNode();
}
for (auto a = affixes.begin(); a != affixes.end();) {
if (a->second.suffix.empty() || a->second.prefix.empty() ||
(a->second.suffix.size() == 1 && a->second.prefix.size() == 1 &&
a->second.suffix.begin()->w == a->second.prefix.begin()->w)) {
affixes.erase(a++);
} else {
a->second.node = net.addNode();
supplyMap.set(a->second.node, 0);
for (auto &e : a->second.suffix) {
e.arc = net.addArc(e.w->second.suffix, a->second.node);
lowerMap.set(e.arc, 0);
upperMap.set(e.arc, 1);
costMap.set(e.arc, 0);
}
for (auto &e : a->second.prefix) {
e.arc = net.addArc(a->second.node, e.w->second.prefix);
lowerMap.set(e.arc, 0);
upperMap.set(e.arc, 1);
costMap.set(e.arc, e.w->first.length() - a->first.length());
}
a->second.tour_node = lemon::INVALID;
++a;
}
}
clog << "Read " << words.size() << " words and found " << affixes.size() << " affixes; ";
clog << "created network with " << countNodes(net) << " nodes and " << countArcs(net) << " arcs" << endl;
int totalCost;
G::ArcMap<int> flowMap(net);
bool solved;
if (argc > 1 && string(argv[1]) == "--net") {
clog << "Using network simplex algorithm" << endl;
solved = solve<lemon::NetworkSimplex<G>>(net, lowerMap, upperMap, costMap, supplyMap, totalCost, flowMap);
} else if (argc > 1 && string(argv[1]) == "--cost") {
clog << "Using cost scaling algorithm" << endl;
solved = solve<lemon::CostScaling<G>>(net, lowerMap, upperMap, costMap, supplyMap, totalCost, flowMap);
} else if (argc > 1 && string(argv[1]) == "--cap") {
clog << "Using capacity scaling algorithm" << endl;
solved = solve<lemon::CapacityScaling<G>>(net, lowerMap, upperMap, costMap, supplyMap, totalCost, flowMap);
} else if ((argc > 1 && string(argv[1]) == "--cycle") || true) {
clog << "Using cycle canceling algorithm" << endl;
solved = solve<lemon::CycleCanceling<G>>(net, lowerMap, upperMap, costMap, supplyMap, totalCost, flowMap);
}
if (!solved) {
clog << "error: no solution found" << endl;
return 1;
}
clog << "Lower bound: " << totalCost << endl;
G::ArcMap<string> arcLabel(tour);
G::Node empty = tour.addNode();
affixes.find("")->second.tour_node = empty;
for (auto &a : affixes) {
for (auto &e : a.second.suffix) {
if (flowMap[e.arc]) {
if (a.second.tour_node == lemon::INVALID)
a.second.tour_node = tour.addNode();
arcLabel.set(tour.addArc(e.w->second.tour_node, a.second.tour_node), "");
}
}
for (auto &e : a.second.prefix) {
if (flowMap[e.arc]) {
if (a.second.tour_node == lemon::INVALID)
a.second.tour_node = tour.addNode();
arcLabel.set(tour.addArc(a.second.tour_node, e.w->second.tour_node), e.w->first.substr(a.first.length()));
}
}
}
clog << "Created tour graph with " << countNodes(tour) << " nodes and " << countArcs(tour) << " arcs" << endl;
G::NodeMap<int> compMap(tour);
int components = lemon::stronglyConnectedComponents(tour, compMap);
if (components != 1) {
vector<unordered_map<string, Affix>::iterator> breaks(components, affixes.end());
for (auto a = affixes.begin(); a != affixes.end(); ++a) {
if (a->second.tour_node == lemon::INVALID)
continue;
int c = compMap[a->second.tour_node];
if (c == compMap[empty])
continue;
auto &b = breaks[compMap[a->second.tour_node]];
if (b == affixes.end() || b->first.length() > a->first.length())
b = a;
}
int offset = 0;
for (auto &b : breaks) {
if (b != affixes.end()) {
arcLabel.set(tour.addArc(empty, b->second.tour_node), b->first);
arcLabel.set(tour.addArc(b->second.tour_node, empty), "");
offset += b->first.length();
}
}
clog << "warning: Found " << components << " components; solution may be suboptimal by up to " << offset << " letters" << endl;
}
if (!lemon::eulerian(tour)) {
clog << "error: failed to make tour graph Eulerian" << endl;
return 1;
}
for (lemon::DiEulerIt<G> e(tour, empty); e != lemon::INVALID; ++e)
cout << arcLabel[e];
cout << endl;
return 0;
}