Messung der Zufälligkeit von CNF-Formeln

Es ist allgemein bekannt, dass CNF-Formeln grob in zwei breite Klassen unterteilt werden können: Zufalls- und Strukturformeln. Strukturierte CNF-Formeln weisen im Gegensatz zu zufälligen CNF-Formeln eine bestimmte Reihenfolge auf und zeigen Muster, die wahrscheinlich nicht zufällig auftreten. Man kann jedoch strukturierte Formeln finden, die einen gewissen Grad an Zufälligkeit aufweisen (dh bestimmte Gruppen von Klauseln scheinen viel weniger strukturiert zu sein als andere), sowie zufällige Formeln mit einer schwachen Form der Struktur (dh bestimmte Gruppen von Klauseln scheinen weniger zufällig zu sein als andere) ). Daher scheint die Zufälligkeit einer Formel nicht nur eine Ja / Nein-Tatsache zu sein.

Sei $r: \mathcal{F} \rightarrow [0,1]$ eine Funktion, die bei einer CNF-Formel $F \in \mathcal{F}$ einen reellen Wert zwischen $0$ und $1$ einschließlich zurückgibt : bedeutet eine rein strukturierte Formel, während eine rein zufällige Formel bedeutet. $0$ $1$

Ich frage mich, ob jemand jemals versucht hat, ein solches zu erfinden . Natürlich wäre der von Wert (zumindest ist dies meine Absicht) nur eine praktische Messung nach vernünftigen Kriterien und keine solide theoretische Wahrheit. $r$ $r$

Mich interessiert auch, ob jemand jemals einen statistischen Indikator definiert und untersucht hat, der zur Definition von oder zur Bestimmung anderer nützlicher Gesamteigenschaften einer Formel verwendet werden kann. Mit statistischem Indikator meine ich so etwas: $r$

HCV (Hit Count Varianz)

Sei eine Funktion, die bei gegebener Variablen die zurückgibt, mit der in . Sei die Menge der in verwendeten Variablen . Sei der AHC (Average Hit Count). Das HCV ist wie folgt definiert: $h_F: \mathbb{N} \rightarrow \mathbb{N}$ $v_j \in \mathbb{N}$ $v_j$ $F$ $V$ $F$ $\bar{h}_F = \frac{1}{|V|} \sum_{v_j \in V}{h_F(v_j)}$

$HVC = \frac{1}{|V|} \sum_{v_j \in V}{(h_F(v_j) - \bar{h}_F)^2}$

In zufälligen Fällen ist das HCV sehr niedrig (alle Variablen werden fast gleich oft erwähnt), während es in strukturierten Fällen nicht der Fall ist (einige Variablen werden sehr häufig verwendet und andere nicht, dh es gibt "Nutzungscluster"). ).
AID (Average Impurity Degree)

Sei die mit der positiv auftritt, und sei die der es negativ auftritt. Sei eine Funktion, die bei einer Variablen ihre ID (Verunreinigungsgrad) zurückgibt. Die Funktion ist wie folgt definiert: . Diejenigen Variablen, die zur Hälfte positiv und zur Hälfte negativ sind, haben einen maximalen Verunreinigungsgrad, während die Variablen, die immer positiv oder immer negativ sind (dh reine Literale), einen minimalen Verunreinigungsgrad haben. Die AID ist einfach wie folgt definiert: $h_F^{+}(v_j)$ $v_j$ $h_F^{-}(v_j)$ $i: \mathbb{N} \rightarrow [0,1]$ $v_j \in V$ $i(v_j)$ $i(v_j) = 2 \cdot \frac{min(h_F^{+}(v_j), h_F^{-}(v_j))}{h_F(v_j)}$

$AID = \frac{1}{|V|} \sum_{v_j \in V}{i(v_j)}$

In zufälligen Fällen (zumindest in Fällen, in denen Variablen mit einer Wahrscheinlichkeit von negiert werden ) ist die AID fast gleich in strukturierten Fällen ist es normalerweise weit von . $0.5$ $1$ $1$
IDV (Impurity Degree Variance)

Das IDV ist ein robusterer Indikator als das AID allein, da es zufällige Instanzen berücksichtigt, die durch Negieren von Variablen mit einer Wahrscheinlichkeit von weniger als generiert werden . Es ist definiert als: In zufälligen Fällen ist die IDV (weil jede Variable negiert ist mit der gleichen Wahrscheinlichkeit), während es in strukturierten Fällen weit von . $0.5$

$IDV = \frac{1}{|V|} \sum_{v_j \in V}{(i(v_j) - AID)^2}$

$0$ $0$

Motivationen

Um besser zu verstehen, wie CNF-Formeln funktionieren, wie ihre Zufälligkeit / Struktur gemessen werden könnte, ob andere nützliche Gesamteigenschaften durch Betrachtung ihrer statistischen Indikatoren abgeleitet werden könnten und wie solche Indikatoren verwendet werden könnten, um die Suche zu beschleunigen.
Ich frage mich, ob die Erfüllbarkeit (oder sogar die Anzahl der Lösungen) einer CNF-Formel durch eine clevere Manipulation ihrer statistischen Indikatoren abgeleitet werden kann.

Fragen

Hat jemand jemals einen Weg vorgeschlagen, um die Zufälligkeit einer CNF-Formel zu messen?
Hat jemand jemals einen statistischen Indikator vorgeschlagen, mit dem nützliche Gesamteigenschaften einer CNF-Formel untersucht oder sogar mechanisch abgeleitet werden können?

— Giorgio Camerani
quelle

Siehe das Papier in dieser Antwort ( cstheory.stackexchange.com/questions/4321/… ). Es könnte Ihnen einen Tipp geben, wie man solche r definiert

— Marcos Villagra

möglicherweise relevante Diskussion über Zufälligkeit der Bit-Strings Messung mathoverflow.net/questions/37518/...

— Yaroslav Bulatov

Soviel kann ich Ihnen sagen, seit ich eine Weile alleine daran gearbeitet habe. Wenn Sie SAT berücksichtigen, sind die Formeln für 1 & 2 exponentiell. Andererseits sind für k-SAT die Formeln für 1 & 2 Polynome. Dies bezieht sich auf meine PRÄZISE DEFINITION VON ZUFÄLLIGEN K-SAT-FRAGEN, die scheinbar niemand beantworten möchte.

— Tayfun Pay

@Geekster: Möchten Sie hier eine Antwort geben?

— Hsien-Chih Chang 張顯之

@Geekster: Was meinst du mit "... die Formeln für 1 & 2 sind exponentiell" ?

— Giorgio Camerani

Ich schlage vor, die Intuition der Physik zu übernehmen, dass "weniger zufällige" Strukturen symmetrischer sind. Die Symmetrie für CNF ist eine Transformation der Variablen, die die Funktion unveränderlich hält. Nach diesen Kriterien können Funktionen von 3 Variablen wie

$\displaystyle x_{1} \vee x_{2} \vee x_{3} .$

oder sagen wir

$\displaystyle(x_{1} \vee x_{2} \vee \neg x_{3}) \wedge (x_{1} \vee \neg x_{2} \vee x_{3}) \wedge (\neg x_{1} \vee x_{2} \vee x_{3}) \wedge (\neg x_{1} \vee \neg x_{2} \vee \neg x_{3}).$

sind weniger zufällig als, sagen wir

$\displaystyle(x_{1} \vee x_{2} \vee \neg x_{3}) \wedge (x_{1} \vee \neg x_{2} \vee x_{3}) \wedge (\neg x_{1} \vee \neg x_{2} \vee x_{3}) .$

Im Allgemeinen ist es eine Herausforderung, ein Konzept der "Zufälligkeit" für endliche Strukturen zu definieren. Historisch wurde es an binären Sequenzen versucht, die wohl die einfachsten endlichen Strukturen sind. Beispielsweise ist eine Sequenz 01010101 intuitiv "weniger zufällig" als beispielsweise 01001110. Es wurde jedoch schnell erkannt, dass es keine konsistente formale Definition einer endlichen Zufallssequenz gibt! Daher muss man naiven Versuchen, ein Zufallsmaß für eine endliche Struktur zu definieren, skeptisch gegenüberstehen.

— Tegiri Nenashi
quelle

Ich stimme voll und ganz mit der Intuition überein, "Struktur bedeutet Vorhandensein von Symmetrien, während Zufälligkeit Abwesenheit von Symmetrien bedeutet" . Sie beziehen sich auf syntaktische Symmetrien (während semantische Symmetrien die Funktion ändern, aber den Lösungsraum unverändert lassen). Ich war immer davon überzeugt, dass Symmetrien der Schlüssel sind.

— Giorgio Camerani

@Walter: Die Idee von Symmetrien ist ein Versuch, Algebra anstelle von Algorithmen zu nutzen: Algorithmische Komplexität ist ein Maß, das sich einer konsistenten Definition für endliche Objekte entzieht. Aber dann haben wir zu assign Komplexität Maßnahme für jedes Element eine Gruppe (zum Beispiel Transformation dass negiert eine einzelne Variable ist einfacher als das , dass negiert zwei) - diese fühlt sich an wie drückt nur das Problem rund um ...

— Tegiri Nenashi