ローカルLLM: モデルがメモリに載らず激遅・強制終了
症状(よく出るエラー)
ollama run が極端に遅い、途中で killed と出て落ちる
原因
LLMはモデル全体をRAM(GPUならVRAM)に載せて動く。空きメモリより大きいモデルを選ぶとスワップ多発で激遅になるか、OOM Killerに落とされる。
直し方
free -h で空きを確認し、モデルサイズ(7B級で数GB〜)と見比べる。小さいモデルか量子化版(q4等)に切り替える。常駐サービスを減らして空きを作るのも手。
ollama run が極端に遅い、途中で killed と出て落ちる
LLMはモデル全体をRAM(GPUならVRAM)に載せて動く。空きメモリより大きいモデルを選ぶとスワップ多発で激遅になるか、OOM Killerに落とされる。
free -h で空きを確認し、モデルサイズ(7B級で数GB〜)と見比べる。小さいモデルか量子化版(q4等)に切り替える。常駐サービスを減らして空きを作るのも手。