Ich habe einen 24-Core-Computer mit 94,6 GB RAM, auf dem Ubuntu Server 10.04 ausgeführt wird. Die Box weist einen hohen Anteil an iowait auf, im Gegensatz zu einem anderen Server (4 Kerne), auf dem dieselben Arten und Mengen von Prozessen ausgeführt werden. Beide Computer sind über 4 FC-Karten mit dem VNX Raid-Dateiserver verbunden, der 24-Core-Computer und der andere über 2 Gigabit-Ethernet-Karten. Die 4-Core-Maschine übertrifft derzeit die 24-Core-Maschine, hat eine höhere CPU-Auslastung und einen geringeren iowait-Anteil.
In 9 Tagen Betriebszeit liegt% iowait im Durchschnitt bei 16% und liegt routinemäßig über 30%. Die CPU-Auslastung ist meistens sehr gering, etwa 5% (aufgrund des hohen iowait). Es gibt genügend freien Speicher.
Eine Sache, die ich nicht verstehe, ist, warum alle Daten scheinbar über das Gerät sdc und nicht direkt über die Data Mover laufen:
avg-cpu: %user %nice %system %iowait %steal %idle
6.11 0.39 0.75 16.01 0.00 76.74
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 0.00 0.00 0.00 1232 0
sdb 0.00 0.00 0.00 2960 0
sdc 1.53 43.71 44.54 36726612 37425026
dm-0 0.43 27.69 0.32 23269498 268696
dm-1 1.00 1.86 7.74 1566234 6500432
dm-2 0.96 1.72 5.97 1442482 5014376
dm-3 0.49 9.57 0.18 8040490 153272
dm-4 0.00 0.00 0.00 1794 24
dm-5 0.00 0.00 0.00 296 0
Ein weiteres Puzzleteil ist, dass Aufgaben häufig in den unterbrechungsfreien Schlafmodus (oben) wechseln, wahrscheinlich auch aufgrund des io-Überfalls.
Worauf kann ich achten, um das Problem zu diagnostizieren? Warum gehen alle Daten durch / dev / sdc? Ist das normal?
AKTUALISIEREN:
Die Netzwerkverbindung und die VNX-Lese- / Schreibkapazität wurden als Engpässe ausgeschlossen. Mit den 4 verbundenen NICs (Round-Robin) können wir Geschwindigkeiten von 800 MB / s erreichen. Die Fibre-Channel-Karten werden noch nicht verwendet. Der VNX kann die E / A-Vorgänge gut verarbeiten (RAID6, 30 x 2 TB, 7,2 kRPM-Festplatten pro Pool in zwei Pools (insgesamt 60 Festplatten), ca. 60% gelesen).
Ignorieren Sie oben über dm und sdc, sie sind alle interne Festplatten und nicht Teil des Problems.
Wir glauben, dass das Problem möglicherweise bei den NFS-Mounts oder TCP liegt (wir haben 5 Mounts auf 5 Partitionen auf dem VNX), wissen aber nicht genau, was. Irgendein Rat?
dm
Steht in diesem Zusammenhang für Device Mapper und nicht für Data Mover. Diese Frage würde bei Server Fault wahrscheinlich viel besser funktionieren.