🐧 Linux 総合学習プラットフォーム
AI時代のLinux ・ 上級

AIインフラを支えるLinux技術

世界のAIを動かしているのは、GPUをたくさん積んだLinuxサーバの群れです。この回では、そのAIインフラを支える技術——GPUドライバの確認、コンテナでのML環境づくり、複数マシンのジョブ管理、推論APIサーバ——を見ていきます。うれしいことに、ここで使う道具のほとんどは、これまでのトラックで学んだLinuxの知識そのものです。「AIインフラエンジニア」は、Linux管理者のまっすぐな延長線上にあります。

スマホでAIに話しかけると、数秒で答えが返ってくる。その裏側では、遠くのデータセンターに並んだ大量のLinuxサーバが、猛烈な計算をこなしている。

このAIインフラを支えているのが、GPUと、それを束ねるLinuxの技術だ。そして安心してほしい。ここで出てくる道具の多くは、このポータルの他のトラックで既に学んだものの応用にすぎない。

🔗
たとえAIインフラは、巨大な厨房のようなものだ。GPUという何百口ものコンロがあり、Linuxが料理長として食材(データ)と注文(リクエスト)をさばいていく。

🖥 主役はGPU

ふつうのプログラムはCPUで動く。だがAIの計算は、同じような掛け算を一度に何万個も行う。これはCPUより、GPU(画像処理用に生まれた並列計算装置)が桁違いに得意だ。

だからAIサーバは、高価なGPUを1枚から数枚、多いものでは1台に8枚も積んでいる。この計算力がAIの源泉だ。

💡
ポイントAIの学習・推論が速いのは、GPUが「同じ計算を大量に並列で」こなせるから。CPUは順番に、GPUは一斉に処理する。

GPUをLinuxから使うには、まずGPUメーカーのドライバが要る。NVIDIA製GPUなら、ドライバを入れると nvidia-smi というコマンドが使えるようになる。

$ nvidia-smi → GPUの使用率・メモリ(VRAM)使用量・温度・いま動いているプロセスが表で出る。AI作業中の「体温計」だ。

nvidia-smi が command not found なら、ドライバがまだ入っていない。ディストリ公式の手順(Ubuntuなら ubuntu-drivers など)で入れるのが安全だ。

つまずきGPUドライバとCUDA(次に出てくる)はバージョンの対応関係がある。組み合わせを間違えると動かないので、必ず公式の対応表で最新を確認する。
AIアプリ(学習・推論のプログラム)CUDA(GPU計算の共通土台)NVIDIAドライバ(GPUとLinuxの橋渡し)GPU(物理装置)× 複数枚

🧮 CUDAという土台

GPUに計算をさせる共通の仕組みが CUDA だ。AIのライブラリ(PyTorchなど)は、内部でCUDAを通してGPUを動かしている。

つまり積み重ねはこうだ。いちばん下に物理GPU、その上にドライバ、その上にCUDA、いちばん上にAIプログラム。どの層が欠けても計算は走らない。

コツ自分でCUDAを直接書くことは少ない。だが「どの層が原因で動かないのか」を切り分けられると、AIインフラのトラブルにめっぽう強くなる。

🐳 コンテナでML環境を固める

AIの環境づくりは、ライブラリのバージョン地獄に陥りやすい。「同僚のPCでは動くのに自分のでは動かない」が日常茶飯事だ。

そこでコンテナ(Dockerトラックで学んだ箱)の出番になる。GPUを使うコンテナも、専用の仕組み(NVIDIA Container Toolkit)を入れれば動く。

$ docker run --rm --gpus all ubuntu nvidia-smi → コンテナの中からGPUが見えるかの定番確認。--gpus all でホストのGPUをコンテナに渡す。

こうしておけば、AI環境をまるごと箱に閉じ込めて、別のサーバでも寸分たがわず再現できる。「動く環境」を配れるのがコンテナの威力だ。

💡
ポイントML環境はコンテナで固めるのが定石。CUDA・ライブラリ・モデルを1つの箱にまとめれば、再現性と使い回しが手に入る。
利用者リバースプロキシ推論サーバ+GPU推論サーバ+GPU推論サーバ+GPU

🕸 1台から複数台へ

AIの計算は、1台のサーバでは足りなくなることがある。学習には何十枚ものGPUを、何日も回すことがあるからだ。

そうなると、複数のマシンに計算を割り振る「オーケストレーション」が必要になる。その代表が Kubernetes で、たくさんのコンテナを何台ものサーバへうまく配置してくれる。

つまずきKubernetesは奥が深い専門分野だ。ここでは「複数マシンのコンテナを束ねる指揮者がいる」とだけ掴めば十分。まずは1台を確実に扱えることが先だ。

🚪 モデルを配る——推論APIサーバ

学習し終えたAIモデルは、最後に「使えるようにする」段階がある。多くの場合、モデルを推論APIサーバとして立て、HTTPで問い合わせを受ける形にする。

ここから先は、実はサーバ構築トラックやネットワークトラックで学んだ世界そのものだ。ポート、リバースプロキシ、TLS、監視——AI特有ではなく、ふつうのサーバ運用の知識が効く。

推論サーバをポート8000で起動し、前段にnginxを置いてHTTPSと負荷分散をさせる。まさにWebサーバ運用と同じ発想だ。
コツ「AIインフラ」と聞くと特別に思えるが、土台の8割は一般的なLinuxサーバ運用だ。だからこのポータルを一通りやれば、その入口に立てる。

🧭 Linux管理者の延長線上

GPUドライバ、コンテナ、複数台管理、APIサーバ、監視。並べてみると、AIインフラエンジニアの仕事は、Linux管理者のスキルをAI向けに伸ばしたものだと分かる。

だから、AIの時代にLinuxを学ぶのは遠回りではない。むしろ、AIを「動かす側」に回るための最短ルートなのだ。

💡
ポイントAIインフラの土台はふつうのLinux運用。GPUという主役が加わるだけ。ここまでのトラックの知識が、そのまま次のステージへの切符になる。

次の最終回では、そんなAI時代に「何を学び続ければいいか」の地図を描いて、このトラックを締めくくろう。

この項目に出てくる用語

CUDAくーだ
NVIDIA GPUに計算をさせるための共通の土台。AIライブラリが内部で使う。
GPUサーバじーぴーゆーさーば
AIの計算のためにGPUを積んだLinuxサーバ。1台に複数枚積むこともある。
推論サーバすいろんさーば
学習済みAIモデルを載せ、問い合わせに答える形で提供するサーバ。
LLMえるえるえむ
大量の文章データを学習し、人間のような文章を生成できるAIモデルのこと。

関連コマンド

nvidia-smi

▶ 学習アプリでこの続きを学ぶ・演習する