Ich untersuche einige genomische Abdeckungsdaten, bei denen es sich im Grunde genommen um eine lange Liste (einige Millionen Werte) von ganzen Zahlen handelt, die jeweils angeben, wie gut (oder "tief") diese Position im Genom abgedeckt ist.
Ich möchte in diesen Daten nach "Tälern" suchen, dh nach Regionen, die deutlich "niedriger" sind als ihre Umgebung.
Beachten Sie, dass die Größe der Täler, die ich suche, zwischen 50 Basen und einigen Tausend liegen kann.
Welche Paradigmen würden Sie empfehlen, um diese Täler zu finden?
AKTUALISIEREN
Einige grafische Beispiele für die Daten:
UPDATE 2
Die Definition eines Tals ist natürlich eine der Fragen, mit denen ich zu kämpfen habe. Dies sind für mich offensichtlich:
aber es gibt einige komplexere Situationen. Im Allgemeinen gibt es drei Kriterien, die ich berücksichtige: 1. Die (durchschnittliche? Maximale?) Abdeckung im Fenster in Bezug auf den globalen Durchschnitt. 2. Die (...) Abdeckung im Fenster in Bezug auf seine unmittelbare Umgebung. 3. Wie groß ist das Fenster: Wenn ich für eine kurze Zeitspanne eine sehr geringe Abdeckung sehe, ist es interessant, wenn ich für eine lange Zeitspanne eine sehr geringe Abdeckung sehe, ist es auch interessant, wenn ich für eine kurze Zeitspanne eine leicht geringe Abdeckung sehe, ist es nicht wirklich interessant , aber wenn ich über einen langen Zeitraum eine leicht geringe Abdeckung sehe, ist dies eine Kombination aus der Länge des Sapn und seiner Abdeckung. Je länger es ist, desto höher lasse ich die Abdeckung sein und betrachte es immer noch als Tal.
Vielen Dank,
Dave