🐧 Linux 総合学習プラットフォーム

プロセス監視/障害対応の用語集(10語)

プロセス監視/障害対応に関する Linux 用語を、読み・意味・補足つきでまとめました。

I/O待ちあいおーまち
ディスクなどの入出力完了を待ってCPUが空いている状態。
CPUは空いているのに、ディスクやネットワークの入出力が終わるのを待っている状態。vmstat の wa 列や top の %wa で確認でき、この値が高ければCPU不足ではなくストレージ性能がボトルネックになっている。CPU使用率が低いのに体感が遅いときは、まずI/O待ちを疑う。
OOM(メモリ不足)おーおーえむ
メモリ枯渇時にカーネルがプロセスを強制終了する仕組み(OOM Killer)。
Out Of Memory の略。物理メモリもスワップも使い切ると、カーネルのOOM Killerが優先度の低いプロセスを選んで強制終了し、システム全体のダウンを防ぐ。突然プロセスが落ちた場合は dmesg や journalctl に「Out of memory: Killed process ...」というログが残っていないか確認する。
ジャーナル(ログ)じゃーなる
systemdが一元管理するログ。journalctl で横断的に読める。
systemd の journald が収集・保管するログの仕組み。各サービスや起動メッセージを一元的に記録し、journalctl で検索・閲覧する。-u でサービス単位、-b で起動単位、-f で追尾、--since で期間指定ができ、テキストの個別ログを開いて回るより一貫した手順で原因を追える。
スワップすわっぷ
物理メモリが足りないとき一部をディスクへ退避する領域。
物理メモリ(RAM)が不足したとき、当面使わないメモリの内容をディスク上のスワップ領域へ一時退避する仕組み。空きメモリを確保できる一方、ディスクはRAMより桁違いに遅いため、スワップの読み書き(vmstat の si/so)が頻発するとシステムが極端に重くなる。free でスワップ使用量を確認できる。
ゾンビプロセスぞんびぷろせす
終了したのに親が後始末していないため一覧に残るプロセス。
子プロセスが終了すると終了状態が一時的に残り、親プロセスがそれを回収(wait)すると消える。親が回収を怠るとこの状態が残り続け、ps では STAT が Z と表示される。ゾンビ自体はCPUやメモリをほぼ消費しないが、大量に溜まるとプロセス番号を圧迫する。根本対処は原因となっている親プロセスの修正・再起動。
ファイルディスクリプタふぁいるでぃすくりぷた
プロセスが開いているファイルやソケットを指す番号。上限がある。
プロセスが開いているファイル・ソケット・パイプなどをOSが管理するための番号。Linuxではネットワーク接続もファイルディスクリプタとして扱うため lsof でまとめて確認できる。プロセスごと・システム全体に上限があり、上限に達すると「Too many open files」エラーが発生する。ulimit で確認・調整できる。
プロセスぷろせす
実行中のプログラム1つ1つの単位。
OSはプロセス単位でCPUやメモリを割り当てる。各プロセスにPIDが付く。
ポートぽーと
通信の宛先を区別する番号。サービスは特定ポートで待ち受ける。
1台のホスト上で複数の通信を区別するための番号。サーバ側のサービスは決まったポート(例: HTTPは80、SSHは22)で接続を待ち受ける(LISTEN)。「つながらない」障害では、相手のサービスが目的のポートで待ち受けているか、途中のファイアウォールで遮断されていないかを ss や lsof で切り分ける。
ボトルネックぼとるねっく
全体の性能を律速している最も詰まっている箇所。
システム全体の処理速度を決めてしまう、最も余裕のない部分のこと。CPU・メモリ・ディスクI/O・ネットワークのいずれかが上限に張り付くと、他に余裕があっても全体が遅くなる。障害対応では、どの資源がボトルネックかを top・vmstat・iostat などで特定してから個別対処に進むのが効率的。
ロードアベレージろーどあべれーじ
実行待ちを含む処理の混み具合を示す数値。1・5・15分平均で表示される。
システムの平均負荷を表す指標で、実行中およびCPU・I/Oの実行待ちにあるプロセスの数を平均したもの。uptime や top で「load average: 0.42, 0.55, 0.61」のように1分・5分・15分の値が出る。目安としてCPUのコア数を超えて高止まりしていれば処理が詰まっているサインで、3つの値を比べると負荷が上昇中か沈静化中かもわかる。

▶ 学習アプリで「引く」を使う