Mein Datensatz enthält zwei (ziemlich stark korrelierte) Variablen (Laufzeit des Algorithmus) und (Anzahl der untersuchten Knoten, was auch immer). Beide sind vom Design her stark korreliert, da der Algorithmus ungefähr Knoten pro Sekunde verwalten kann.n c
Der Algorithmus wurde bei mehreren Problemen ausgeführt, aber beendet, wenn nach einer Zeitüberschreitung keine Lösung gefunden wurde . Daten werden also für die Zeitvariable rechtszensiert.
Ich zeichne die geschätzte kumulative Dichtefunktion (oder die kumulierte Anzahl) der Variablen für die Fälle, in denen der Algorithmus mit endete . Dies zeigt, wie viele Probleme durch Erweitern von höchstens Knoten gelöst werden könnten, und ist nützlich, um verschiedene Konfigurationen des Algorithmus zu vergleichen. Aber in der Handlung für gibt es diese lustigen Schwänze oben, die scharf nach rechts gehen, wie im Bild unten zu sehen ist. Vergleichen Sie das ecdf für die Variable , für die die Zensur durchgeführt wurde.t < T n n t
Kumulierte Anzahl von
Kumulierte Anzahl von
Simulation
Ich verstehe, warum dies passiert, und kann den Effekt in einer Simulation mit dem folgenden R- Code reproduzieren . Es wird durch Zensur einer stark korrelierten Variablen unter Hinzufügung von etwas Rauschen verursacht.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Wie heißt dieses Phänomen? Ich muss in einer Veröffentlichung angeben, dass diese Fans Artefakte des Experiments sind und nicht die tatsächliche Verteilung widerspiegeln.