「社内データをクラウドに送らずにAIを使いたい」「API料金を気にせず大規模言語モデルを試したい」——そんなニーズから、自分のPC上でLLM(大規模言語モデル)を動かすローカルLLMが注目を集めています。
しかし、実際に構築しようとすると「どのくらいのスペックが必要?」「費用は?」「WindowsとMacどちらが有利?」といった疑問が次々に出てくるものです。
この記事では、ローカルLLMの基本概念から、OS別の構築手順、必要なPCスペックと費用、2026年時点でおすすめのモデルまでを体系的に解説します。初めてローカルLLM環境を構築する方でも迷わないよう、ステップバイステップで進められる内容にまとめました。
- ローカルLLMのメリットとクラウドLLMとの違いが分かる
- モデルサイズ別に必要なPCスペックと費用感を把握できる
- Windows・Mac・Linux(Ubuntu)それぞれの構築手順を解説
- 2026年最新のおすすめモデルと用途別の選び方を紹介
- よくあるトラブルと対処法もカバー
ローカルLLMとは?クラウドとの違いと構築するメリット
ローカルLLMとは、ChatGPTのようなクラウドサービスを使わず、自分のPCやサーバー上で直接LLM(Large Language Model:大規模言語モデル)を動かす仕組みのことです。
ローカルLLMの仕組み
クラウドLLMではユーザーの入力がインターネット経由でサーバーに送られ、推論結果が返ってきます。一方、ローカルLLMではモデルファイルをPCのストレージに保存し、GPU(またはCPU)を使って自分のマシン上で推論を実行します。
モデルファイルの形式としては、GGUF(llama.cppが使用する量子化形式)やSafetensors(Hugging Faceの標準形式)が主流です。特にGGUF形式は量子化(モデルの精度をわずかに落として軽量化する技術)されたファイルが豊富に公開されており、一般的なPCでも実用的な速度で動かせます。
クラウドLLMと比較した5つのメリット
- プライバシー・セキュリティ:データが外部に一切送信されないため、機密情報や個人情報を扱う場面でも安心
- コスト削減:API利用料が発生しない。初期投資(GPU購入など)のみで、以降はランニングコストほぼゼロ
- オフライン動作:インターネット接続なしでも利用可能。出張先や制限のあるネットワーク環境でも使える
- カスタマイズ自由度:ファインチューニング(追加学習)やプロンプトテンプレートの変更が自由自在
- レイテンシの安定:ネットワーク遅延の影響を受けないため、応答速度が安定する
一方で、クラウドLLMと比べると最先端モデル(GPT-4oクラス)と同等の性能を得るにはハイスペックなハードウェアが必要になるという制約もあります。用途と予算に応じた適切なモデル選択が重要です。
ローカルLLM構築に必要なPCスペック
ローカルLLM構築で最も重要なのは、PCのハードウェアスペックです。特にGPUのVRAM(ビデオメモリ)容量がモデル選択の幅を決定づけます。
GPU(VRAM)が最重要パーツ
LLMの推論ではモデルのパラメータをメモリ上に展開する必要があります。モデルサイズが大きいほど多くのVRAMを消費し、VRAMに収まらない場合はシステムRAMへのオフロード(退避)が発生して大幅に速度が低下します。
2026年現在、ローカルLLM用途で人気のGPUは以下のとおりです。
- NVIDIA GeForce RTX 4060(8GB VRAM):エントリー向け。7B〜13Bモデルの量子化版を動かせる
- NVIDIA GeForce RTX 4070 Ti SUPER(16GB VRAM):ミドル向け。13B〜30Bモデルの量子化版に対応
- NVIDIA GeForce RTX 4090(24GB VRAM):ハイエンド。30B〜70Bモデルの量子化版も実用的な速度で動作
- NVIDIA RTX 5090(32GB VRAM):2025年登場の最新ハイエンド。70Bモデルを高品質な量子化で快適に利用可能
MacユーザーにはApple Siliconの「ユニファイドメモリ」がGPUメモリとしても使える点が大きなアドバンテージです。M4 Proで24GB、M4 Maxで128GBまでのメモリ構成を選択できます。
モデルサイズ別の推奨スペック一覧
以下は、GGUF形式の4bit量子化(Q4_K_M)モデルを動かす場合の目安です。
| モデルサイズ | 必要VRAM目安 | 推奨GPU例 | 推奨RAM | ストレージ |
|---|---|---|---|---|
| 7B(70億パラメータ) | 約5〜6GB | RTX 4060(8GB) | 16GB以上 | 10GB以上 |
| 13B(130億パラメータ) | 約8〜10GB | RTX 4070 Ti SUPER(16GB) | 16GB以上 | 15GB以上 |
| 30B(300億パラメータ) | 約18〜20GB | RTX 4090(24GB) | 32GB以上 | 25GB以上 |
| 70B(700億パラメータ) | 約38〜42GB | RTX 5090(32GB)×2 or Mac M4 Max 64GB+ | 64GB以上 | 50GB以上 |
数値はあくまで目安であり、量子化方式やコンテキスト長の設定によって変動します。迷ったら「モデルの必要VRAM+2〜4GBの余裕」があるGPUを選ぶのが安全です。
CPU推論という選択肢
GPUがなくても、CPU推論でローカルLLMを動かすことは可能です。llama.cppはCPU推論に最適化されており、AVX2対応のCPUであれば7Bモデル程度なら実用的な速度を得られます。
ただし、GPUと比較すると推論速度は5〜20倍ほど遅くなるため、「まず試してみたい」という段階向けです。本格運用にはGPUの導入を推奨します。
ローカルLLM構築の費用はいくらかかる?
ローカルLLM構築にかかる費用は、大きく分けて「ハードウェアコスト」と「ソフトウェアコスト」の2つです。ソフトウェア側は無料ツールで完結できるため、実質的にはハードウェア費用のみとなります。
予算別おすすめ構成
| 予算帯 | GPU構成 | 実行可能なモデル | 概算費用(2026年時点) |
|---|---|---|---|
| エントリー | RTX 4060(8GB) | 7Bモデルの量子化版 | 約5〜7万円(GPU単体) |
| ミドル | RTX 4070 Ti SUPER(16GB) | 13B〜30Bモデルの量子化版 | 約10〜13万円(GPU単体) |
| ハイエンド | RTX 4090 / RTX 5090 | 30B〜70Bモデルの量子化版 | 約25〜40万円(GPU単体) |
| Mac(ミドル) | MacBook Pro M4 Pro(24GB) | 13B〜30Bモデル | 約30〜35万円(本体) |
| Mac(ハイエンド) | Mac Studio M4 Max(64GB〜) | 30B〜70Bモデル | 約45〜70万円(本体) |
既存PCを活用する場合のコスト
すでにゲーミングPCやクリエイター向けPCを持っている場合は、追加コストなしでローカルLLMを試せる可能性があります。NVIDIA GeForce RTX 3060(12GB VRAM)以上のGPUを搭載していれば、7B〜13Bの量子化モデルは十分に動作します。
GPUのみ追加・交換する場合は、電源容量(RTX 4090なら850W以上推奨)やPCIeスロットの互換性を事前に確認してください。
ローカルLLM構築方法【OS共通ツール Ollama編】
2026年現在、ローカルLLM構築で最も手軽なのがOllamaです。Windows・Mac・Linuxのすべてに対応し、コマンド一つでモデルのダウンロードから実行まで完結します。
Ollamaのインストール手順(Windows / Mac / Linux)
Windows:
- Ollama公式サイトからWindows版インストーラをダウンロード
- インストーラを実行し、画面の指示に従ってインストール
- PowerShellまたはコマンドプロンプトを開き、
ollama --versionでインストールを確認
Mac:
- 公式サイトからmacOS版をダウンロード、またはHomebrewで
brew install ollamaを実行 - ターミナルで
ollama --versionを実行して確認
Linux(Ubuntu):
- ターミナルで以下のコマンドを実行
curl -fsSL https://ollama.com/install.sh | sh ollama --versionで確認
いずれのOSでも、インストール後の操作方法は同じです。これがOllamaの大きなメリットであり、OS間の差異を最小限に抑えてくれます。
モデルのダウンロードと実行
Ollamaではモデル名を指定するだけで自動的にダウンロードと起動が行われます。
ollama run llama3.1:8b
初回実行時にモデルファイルがダウンロードされ(7Bモデルで約4〜5GB)、完了後すぐにチャットが開始されます。主なコマンドは以下のとおりです。
ollama list:ダウンロード済みモデルの一覧表示ollama pull <モデル名>:モデルのダウンロードのみ実行ollama run <モデル名>:モデルの起動とチャット開始ollama rm <モデル名>:モデルの削除ollama serve:APIサーバーとして起動(デフォルトでポート11434)
Web UIの導入(Open WebUI)
コマンドラインでの操作に慣れていない場合は、Open WebUI(旧Ollama WebUI)を導入するとブラウザからChatGPTに似たインターフェースでローカルLLMを利用できます。
Dockerがインストール済みであれば、以下のコマンドで起動できます。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
起動後、ブラウザでhttp://localhost:3000にアクセスすると利用開始できます。詳しくはOpen WebUI公式リポジトリを参照してください。
Windows環境でのローカルLLM構築ポイント
Windowsは最もユーザー数が多いOSであり、ローカルLLM構築の情報も豊富です。ただし、いくつかWindows固有の注意点があります。
NVIDIA GPUドライバとCUDAの設定
NVIDIA GPUを使う場合、最新のGPUドライバをインストールしておく必要があります。Ollamaを使う場合はCUDA Toolkitの手動インストールは不要(Ollamaに組み込まれている)ですが、llama.cppやPython経由で直接推論を行う場合はCUDA Toolkit 12.xのインストールが必要です。
ドライバのバージョンはnvidia-smiコマンドで確認できます。CUDA 12.x対応には、ドライババージョン525以上が必要です。
WSL2を使う方法
Linux向けのツールやスクリプトをWindows上で使いたい場合は、WSL2(Windows Subsystem for Linux 2)が便利です。WSL2上のUbuntuからNVIDIA GPUにアクセスでき、Linuxネイティブと同等のパフォーマンスが得られます。
- PowerShell(管理者権限)で
wsl --installを実行 - 再起動後、Microsoft StoreからUbuntuをインストール
- WSL2上のUbuntuで前述のOllamaインストール手順を実行
WSL2はDockerとの相性も良く、Open WebUIの導入もスムーズに行えます。
Mac環境でのローカルLLM構築ポイント
Apple Silicon(M1〜M4シリーズ)搭載のMacは、ローカルLLM構築において独自の強みを持っています。
Apple Siliconの活用(Metal対応)
Apple Siliconの最大の利点は、CPUとGPUがユニファイドメモリを共有する設計です。NVIDIA GPUのようにVRAMの制限に悩まされることなく、搭載メモリの大部分をモデルの展開に使用できます。
OllamaはApple SiliconのMetal(AppleのGPU API)にネイティブ対応しており、特別な設定なしでGPU推論が有効になります。M4 Proの24GBモデルであれば、13Bモデルを快適に動かせます。
Macで動かすのに向いているモデル
メモリ帯域幅の違いから、Macでは同じVRAM容量のNVIDIA GPUと比べてトークン生成速度がやや遅くなる傾向があります。しかし、メモリ容量を活かして大きなモデルを「動かせる」という点で優位です。
- M4 Pro(24GB):7B〜13Bモデルが快適。30Bモデルも量子化次第で動作可能
- M4 Max(64GB):30B〜70Bモデルが実用レベルで動作
- M4 Max(128GB)/ M4 Ultra:70B以上のモデルも展開可能
「大きなモデルをゆっくりでも動かしたい」「静音環境で作業したい」という用途には、Macが適しています。
Linux(Ubuntu)環境でのローカルLLM構築ポイント
本格的なローカルLLM環境を構築するなら、Linuxが最も柔軟で高性能です。特にUbuntuは情報が豊富で、多くのLLMツールが公式にサポートしています。
Ubuntu環境のセットアップ
Ubuntu 22.04 LTS または 24.04 LTSを推奨します。NVIDIA GPU利用時のセットアップ手順は以下のとおりです。
- NVIDIAドライバのインストール:
sudo apt install nvidia-driver-555(バージョンは環境に合わせて変更) - 再起動後、
nvidia-smiでGPUが認識されていることを確認 - Ollamaをインストール:
curl -fsSL https://ollama.com/install.sh | sh ollama run llama3.1:8bで動作確認
Ubuntu環境ではsystemdサービスとしてOllamaを自動起動設定でき、サーバー運用にも適しています。
llama.cppやvLLMの活用
Ollama以外にも、Linux環境ではより高度なツールを活用できます。
- llama.cpp:C/C++で書かれた軽量な推論エンジン。量子化モデルの実行に最適化されており、細かなパラメータ調整が可能。GitHub公式リポジトリ
- vLLM:Pythonベースの高速推論ライブラリ。PagedAttentionによる効率的なメモリ管理が特徴で、複数リクエストの同時処理に強い。GitHub公式リポジトリ
- LM Studio:GUIベースのツール。Linux版も提供されており、コマンドラインに慣れていないユーザーにも使いやすい。公式サイト
用途に応じて、個人利用ならOllamaやLM Studio、APIサーバー運用ならvLLM、細かいカスタマイズならllama.cppという使い分けが一般的です。
2026年おすすめのローカルLLMモデル
オープンソース(またはオープンウェイト)のLLMは急速に進化しており、2026年時点では以下のモデルが特に人気です。
主要モデル比較表
| モデル名 | 開発元 | パラメータ数 | 特徴 | ライセンス |
|---|---|---|---|---|
| Llama 3.1 / 3.2 | Meta | 8B / 70B / 405B | 高い汎用性能。多言語対応。コミュニティが非常に活発 | Llama Community License |
| Gemma 2 / 3 | 2B / 9B / 27B | 軽量で高性能。日本語性能も良好 | Gemma Terms of Use | |
| Phi-4 | Microsoft | 14B | 小型ながら推論能力が高い。コーディング用途に強い | MIT License |
| Mistral / Mixtral | Mistral AI | 7B / 8x7B / 8x22B | MoE(Mixture of Experts)アーキテクチャで効率的な推論 | Apache 2.0 |
| Qwen 2.5 / 3 | Alibaba | 7B / 14B / 72B | 多言語性能が高く、日本語のベンチマークでも上位 | Apache 2.0 / Qwen License |
| DeepSeek-V3 | DeepSeek | 671B(MoE、活性37B) | MoE構成で実効パラメータが小さく、コスパ良好 | DeepSeek License |
※モデルのバージョンやライセンスは頻繁に更新されるため、利用前にHugging Faceの各モデルページで最新情報を確認してください。
用途別の選び方
- 日本語チャット・文章生成:Qwen 2.5/3やGemma 3が日本語での自然な応答に強い
- コーディング支援:Phi-4やDeepSeek-Coderが高い補完精度を発揮
- 汎用的な質問応答:Llama 3.1/3.2の8B〜70Bが安定した性能
- 軽量環境(8GB VRAM以下):Gemma 2 2B、Phi-4の量子化版、Llama 3.2 3Bがおすすめ
- RAG(検索拡張生成):長いコンテキストを扱えるQwen 2.5やMistralが適している
迷った場合は、まずollama run llama3.1:8bで基本的な動作を確認し、その後用途に合ったモデルを試すのが効率的です。
ローカルLLM構築でよくあるトラブルと対処法
初めてローカルLLM環境を構築する際に遭遇しやすいトラブルとその対処法をまとめます。
まとめ
ローカルLLM構築は、プライバシーの確保やコスト削減、カスタマイズの自由度など多くのメリットがあり、2026年現在ではOllamaのようなツールの登場によって導入ハードルが大きく下がっています。
構築のポイントを改めて整理すると、以下のようになります。
- スペック:GPU(VRAM)が最重要。8GB VRAMで7Bモデル、16GBで13B〜30Bモデル、24GB以上で70Bモデルが目安
- 費用:GPU単体で5〜40万円程度。既存のゲーミングPCがあれば追加費用なしで始められる場合も
- OS:Windows・Mac・Linuxいずれでも構築可能。Ollamaを使えばOS間の差は最小限
- モデル選び:日本語用途ならQwen/Gemma、汎用ならLlama、コーディングならPhi/DeepSeekが有力候補
- 最初の一歩:Ollamaをインストールして
ollama run llama3.1:8bを実行するだけで体験できる
まずは手元のPCにOllamaをインストールし、小さなモデルから試してみてください。実際に動かしてみると、必要なスペック感や用途に合ったモデルの選び方が体感で分かるようになります。
