Wir haben einen Graphite-Server zum Sammeln von Daten über collectd, statsd, JMXTrans ... Seit einigen Tagen haben wir häufig Lücken in unseren Daten. Wenn wir uns die Daten ansehen, die wir noch haben, können wir eine Zunahme der Größe des Carbon-Cache feststellen (von 50 KB auf 4 MB). Wir sehen keinen Anstieg der Anzahl der gesammelten Metriken (metricsReceived ist stabil bei etwa 300 KB). Wir haben die Anzahl der Anfragen von durchschnittlich 1000 auf 1500 erhöht.
Seltsamerweise verringert sich die CPU-Auslastung geringfügig von 100% (wir haben 4 CPUs) auf 50%, wenn die Cache-Größe zunimmt.
Seltsamerweise sehen wir wieder eine Zunahme der Anzahl, wenn Oktette von der Festplatte gelesen werden, und eine Abnahme der Anzahl der geschriebenen Oktette.
Wir haben Carbon hauptsächlich mit Standardwerten konfiguriert:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
Offensichtlich hat sich etwas in unserem System geändert, aber wir verstehen nicht, was und wie wir diese Ursache finden können ...
Irgendeine Hilfe ?