ローカルLLM: モデルがメモリに載らず激遅・強制終了

Question

ollama run が極端に遅い、途中で killed と出て落ちる

Accepted Answer

LLMはモデル全体をRAM（GPUならVRAM）に載せて動く。空きメモリより大きいモデルを選ぶとスワップ多発で激遅になるか、OOM Killerに落とされる。 free -h で空きを確認し、モデルサイズ（7B級で数GB〜）と見比べる。小さいモデルか量子化版（q4等）に切り替える。常駐サービスを減らして空きを作るのも手。

ローカルLLM: モデルがメモリに載らず激遅・強制終了

症状（よく出るエラー）

原因

直し方

関連コマンド