Abschätzung der VC-Dimension


12

Was ist über das folgende Problem bekannt?

Wenn eine Sammlung von Funktionen f : { 0 , 1 } n{ 0 , 1 } gegeben ist , finde eine größte Untersammlung S C unter der Bedingung, dass VC-Dimension ( S ) k für eine ganze Zahl k ist .Cf:{0,1}n{0,1}SC(S)kk

Gibt es Näherungsalgorithmen oder Härteergebnisse für dieses Problem?


Die Funktionen scheinen bei der Maximierung von | S | keine Rolle zu spielen
Suresh Venkat

Die Auswahl der Funktionen bestimmt die VC-Dimension von S. Das Problem besteht darin, eine möglichst große Klasse von Funktionen zu finden, die einer VC-Dimensionsbeschränkung unterliegen.
Aaron Roth

Aha. Übersetzt in "Geometrieland" erhalten Sie eine Sammlung von Bereichen (f fungiert als charakteristische Funktion) und möchten eine größte Untersammlung von begrenzten VC-Dimensionen.
Suresh Venkat

Das andere Problem bei der Beantwortung der Frage: Wie wird C dargestellt? Wir wissen , dass die maximal mögliche Größe ist O ( 2 n k ) von Sauer Lemma und sogar eine Funktion in Aufschreiben C erfordert n Bits. SO(2nk)Cn
Suresh Venkat

1
Richtig. Ich bin an Ergebnissen in jedem Repräsentationsregime interessiert. Sie könnten sich vorstellen, dass als 2 n × | dargestellt wird C | Matrix, in diesem Fall Laufzeit 2 n × | C | wäre "effizient" (obwohl nicht die Zeit 2 n × k , was nötig ist, um vollständig zu prüfen, ob alle Sammlungen von k Punkten zerbrochen sind). Wenn algorithmische Ergebnisse nur mit Black-Box-Abfragezugriff auf die Funktionen in C möglich sind, wäre dies sogar noch besser. C2n×|C|2n×|C|2n×kkC
Aaron Roth

Antworten:


7

Edit : Das ursprüngliche Problem ist - schwer zu approximieren, wenn k = 1 ist, wobei n istn1ϵk=1n die Anzahl der Mengen bezeichnet.

Das Dual eines Hypergraphen wird erhalten, indem Scheitelpunkte mit Kanten ausgetauscht und Vorkommen beibehalten werden. Es ist einfacher, das Problem zu verstehen, wenn wir feststellen, dass ein Hypergraph die VC-Dimension 1 hat, wenn sein Dual kreuzfrei ist (für alle in A mindestens eines von P Q , P Q , Q P , ( P Q ) c ist leer).P,QAPQ,PQ,QP,(PQ)c

Durch die Dualität ist das ursprüngliche Problem (für ) äquivalent zu, wenn ein Hypergraph ( V , S ) gegeben ist , um eine maximale Größe U V mit ( U , { S U S S } ) zu finden.k=1(V,S)UV(U,{SUSS}) Querfrei.

In der Tat ist dies (dual) Problem sehr schwer , auch wenn alle Sätze in haben Größe 2: dann ist es eine grafische Darstellung ist , und wir sind für eine max-size Vertex Größe , deren Untergraphen , die sich nicht alle zwei Randweg enthalten ( es ist nicht schwer zu erkennen, dass dies der einzige Weg ist, auf dem ein Kreuzungspaar entstehen kann, vorausgesetzt, der Graph hat mindestens 4 Eckpunkte. Diese Eigenschaft ist jedoch erblich und nichttrivial und daher können wir ein Ergebnis von Feige und Kogan verwenden , um die Härte zu zeigen.S

Ursprüngliche Antwort

Das doppelte Problem für (finde eine maximale Größe S, so dass die doppelte VC-Dimension von S höchstens 1 ist) ist innerhalb von n 1 - ϵ (in einer Familie mit Θ ( n ) Mengen) schwer zu approximieren .k=1SSn1ϵΘ(n)

Der Grund dafür ist , dass die Dual - VC-Dimension einer Familie ist 1 genau dann , wenn folgendes gilt: für alle P , Q in A , mindestens eines von P Q , P Q , Q P , ( P Q ) c ist leer. (Dh VC-dim = 1 ist das Doppelte dessen, was oft als Kreuzungsfreiheit bezeichnet wird.)AP,QAPQ,PQ,QP,(PQ)c

Wir reduzieren von der unabhängigen Menge auf die Berechnung der kreuzungsfreien Unterfamilie mit maximaler Größe. Wenn ein Graph konstruiere einen Hypergraphen H = ( X , S ), wobei X = V E { 0 } für ein Dummy-Element 0 ist . Für jeden Vertex v von G addieren wir die folgende Menge T v zu S : { v } { e eG=(V,E)H=(X,S)X=VE{0}0vGTvS

{v}{ee is an edge incident to v}.

{Tv}vUUG

Aber für das ursprüngliche (ursprüngliche) Problem scheint ein wenig mehr Nachdenken erforderlich zu sein ... sieht interessant aus!


4

Einige relevante verwandte Arbeiten: Die Schätzung der VC-Dimension selbst (geschweige denn das Auffinden einer großen Subkollektion mit begrenzter VC-Dimension) in Ihrer Darstellung ist LOGNP-vollständig (LOGNP ist NP, beschränkt auf log n Bits Nichtdeterminismus). Es gibt auch einige verwandte Arbeiten zum Schätzen und Approximieren der VC-Dimension, wenn die Darstellung des Bereichsraums kompakter ist (siehe auch die Referenzen innerhalb).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.