このページについて: ローカルLLMに関するすべての疑問に答えるハブページです。初心者から上級者まで、必要な情報に素早くアクセスできます。
このガイドで解決できること
- ✅ ローカルLLMとは何か、クラウドLLMとの違い
- ✅ Ollama / LM Studio / llamafileの選び方
- ✅ Windows環境でのゼロからセットアップ
- ✅ Claude Codeとの連携方法(API費用ゼロ)
- ✅ よくあるトラブルシューティング
- ✅ プライバシー・セキュリティの考え方
目次
- ローカルLLMとは
- クラウドLLM vs ローカルLLM 比較
- 主要ツール比較(Ollama / LM Studio / llamafile)
- Windows環境でのセットアップ手順
- Claude Codeとの連携方法
- 推奨モデル一覧(2026年版)
- よくある質問(FAQ)
- トラブルシューティング
1. ローカルLLMとは
ローカルLLM(Large Language Model)とは、ChatGPTやClaude APIのようなクラウドサービスではなく、自分のPC上で直接動かすAIモデルのことです。
なぜローカルLLMが注目されるのか
コスト面:
– Claude API: 入力トークン$3/M、出力トークン$15/M(claude-3-5-sonnetの場合)
– ChatGPT Plus: 月額$20
– ローカルLLM: 電気代のみ(実質無料)
プライバシー面:
– 社内機密コードをAPIに送信する必要がない
– 個人情報を外部サービスに渡さない
– オフライン環境でも動作
自由度:
– レート制限なし
– モデルのカスタマイズが可能
– 商用利用可能なオープンソースモデルも多数
2. クラウドLLM vs ローカルLLM 比較
| 比較軸 | クラウドLLM | ローカルLLM |
|---|---|---|
| コスト | 月額$20〜 / API従量課金 | 初期投資(GPU)+ 電気代のみ |
| 性能 | GPT-4o、Claude 3.5 Sonnet等(最高品質) | 7B〜72Bモデル(実用レベル) |
| プライバシー | データがサーバーに送信される | 完全ローカル処理 |
| 速度 | ネット速度依存 | ハードウェア依存(GPU推奨) |
| セットアップ | アカウント登録のみ | ツール導入が必要 |
| オフライン | 不可 | 可能 |
| カスタマイズ | 制限あり | ファインチューニング可能 |
結論: 機密データを扱う業務や、API費用を抑えたい開発用途にはローカルLLMが最適。最高品質が必要な場合はクラウドLLMと使い分ける。
3. 主要ツール比較(Ollama / LM Studio / llamafile)
Ollama — 開発者向け、CLI操作
特徴:
– コマンドライン中心の設計
– APIサーバー機能内蔵(OpenAI互換)
– Claude Codeとの連携が容易
– Docker的な感覚でモデルを管理
# インストール後、すぐにモデルをダウンロードして実行
ollama run llama3.2
向いている人: エンジニア、Claude Code/Cursor等のAIコーディングツールと連携したい人
LM Studio — GUI操作、初心者向け
特徴:
– グラフィカルなUI
– モデルの検索・ダウンロードが簡単
– チャット画面がすぐに使える
– 商用利用ライセンスが2024年に解禁
向いている人: 非エンジニア、まずチャットで試したい人
llamafile — 単一実行ファイル、最もシンプル
特徴:
– 1つのファイルをダウンロードするだけで動く
– インストール不要
– 全OS対応
向いている人: 手軽に試したい人、環境構築を最小限にしたい人
4. Windows環境でのセットアップ手順
必要なスペック(目安)
| モデルサイズ | RAM | GPU VRAM | 速度 |
|---|---|---|---|
| 7B | 8GB+ | 不要(CPU動作可) | 低速 |
| 13B | 16GB+ | 8GB推奨 | 普通 |
| 32B | 32GB+ | 16GB+ | 快適 |
| 70B+ | 64GB+ | 24GB+ | 高速 |
GPU不要でも動く: 7Bモデルなら16GB RAMのPCでCPU動作が可能。ただし速度は遅い。
Ollamaのインストール(Windows)
Step 1: ollama.ai から Windows版をダウンロード・インストール
Step 2: コマンドプロンプトまたはPowerShellを開く
Step 3: モデルをダウンロード
# 軽量モデル(推奨初心者向け)
ollama pull qwen2.5:7b
# 高性能モデル(32GB RAM以上推奨)
ollama pull qwen2.5:32b
# コード特化
ollama pull qwen2.5-coder:7b
Step 4: 動作確認
ollama run qwen2.5:7b
>>> こんにちは!日本語で話せますか?
詳細は → [[Ollama × Claude Code:API費用ゼロでAIコーディング環境を構築する完全ガイド]]
5. Claude Codeとの連携方法
Ollamaを使ってClaude Codeを無料で使う
Claude Codeは通常、Anthropic APIキー(有料)が必要です。しかしOllamaのクラウドモデル機能を使うと、API費用なしでClaude Codeを体験できます。
仕組み:
1. OllamaがOpenAI互換APIサーバーとして動作
2. Claude CodeがANTHROPIC_API_KEYの代わりにANTHROPIC_BASE_URLを参照
3. ローカルモデルまたはOllamaのクラウドモデルで応答
環境変数の設定:
# PowerShell(Windows)
$env:ANTHROPIC_BASE_URL = "http://localhost:11434/v1"
$env:ANTHROPIC_API_KEY = "ollama" # ダミー値でOK
# コマンドプロンプト
set ANTHROPIC_BASE_URL=http://localhost:11434/v1
set ANTHROPIC_API_KEY=ollama
推奨モデル(Claude Codeとの連携用):
# Qwen2.5-Coder(コード生成特化、2026年現在ベスト)
ollama pull qwen2.5-coder:32b
# Ollamaのクラウドモデル機能を使う場合
ollama pull claude3.5-haiku # 要Anthropic APIキー(安価)
詳細は → [[GPUなし・無料でClaude Codeを体験する方法|Ollamaクラウドモデル完全ガイド]]
Claude Code × Ollama Part 2(72GBモデルでの実践)
大型モデル(32B〜72B)を使った実践的な開発については → [[【実践検証】Claude Code × Ollama Part2|72GBモデルで実際に開発してみた結果]]
6. 推奨モデル一覧(2026年版)
汎用・日本語
| モデル | サイズ | 特徴 | コマンド |
|---|---|---|---|
| Qwen2.5 | 7B/32B | 日本語対応◎、バランス良 | ollama pull qwen2.5:7b |
| Gemma3 | 4B/12B | Google製、軽量 | ollama pull gemma3:4b |
| Llama3.2 | 3B/11B | Meta製、高速 | ollama pull llama3.2 |
コード生成特化
| モデル | サイズ | 特徴 | コマンド |
|---|---|---|---|
| Qwen2.5-Coder | 7B/32B | コード最強クラス | ollama pull qwen2.5-coder:7b |
| DeepSeek-Coder-V2 | 16B | コードレビュー◎ | ollama pull deepseek-coder-v2 |
7. よくある質問(FAQ)
Q: GPUがなくても使えますか?
A: はい、使えます。CPU動作でも7Bモデルは動きますが、速度は遅い(1トークン/秒程度)。実用的に使うには16GB以上のRAMと、できればGPU(VRAM 8GB以上)を推奨します。
Q: 日本語で使えますか?
A: Qwen2.5シリーズは日本語対応が優秀です。日本語でプロンプトを入力しても自然な日本語で応答します。
Q: クラウドLLMとどちらが賢いですか?
A: GPT-4oやClaude 3.5 Sonnetなどのクラウドモデルの方が高性能です。ただしQwen2.5-32BクラスになるとGPT-4-turbo(旧モデル)と同等以上の性能が出ることもあります。用途に応じて使い分けるのがベストです。
Q: 社内環境で使う場合、セキュリティは大丈夫ですか?
A: ローカル動作なので、データは社外に出ません。ただし、OllamaのAPIサーバーはデフォルトでローカルホストのみに公開されます。社内ネットワークに公開する場合は設定とセキュリティポリシーの確認が必要です。
Q: Claude CodeをローカルLLMと組み合わせる際、制限はありますか?
A: はい。公式のAnthropicモデル(claude-3-5-sonnet等)と比べると、コードの品質やコンテキスト理解は劣る場合があります。学習・実験用途には十分ですが、本番の開発では公式APIの使用を推奨します。
Q: WindowsとMacどちらが向いていますか?
A: MacはApple Silicon(M1/M2/M3/M4)のUnified Memoryが優秀で、32GB搭載モデルなら70Bクラスも動作します。WindowsはNVIDIA GPUがあれば高速動作が可能。CPUのみの場合はどちらも遅めです。
Q: Ollamaは商用利用できますか?
A: Ollamaツール自体はMITライセンスで商用利用可能です。ただし各モデルのライセンスは個別に確認が必要です(MetaのLlamaはコミュニティライセンス等)。
8. トラブルシューティング
Ollamaが起動しない
# Windowsサービスの確認
Get-Service | Where-Object {$_.Name -like "*ollama*"}
# 手動起動
ollama serve
モデルのダウンロードが遅い・止まる
- VPNをオフにして試す
- ダウンロードを再開(
ollama pullを再実行) - ディスク容量を確認(7Bで4GB、70Bで40GB必要)
Claude Codeが接続できない
# Ollamaのサーバーが動いているか確認
curl http://localhost:11434/api/tags
# 環境変数が正しく設定されているか確認
echo $ANTHROPIC_BASE_URL
メモリ不足エラー
より小さいモデルに切り替えるか、量子化バージョンを使用:
# Q4量子化(メモリ効率重視)
ollama pull qwen2.5:7b-q4_0
まとめ:ローカルLLMで何が変わるか
ローカルLLMを導入することで:
- 月額費用ゼロでAIコーディング補助
- 機密データの安全性を確保しながらAI活用
- Claude Code等のツールとの連携で開発速度向上
このブログでは、製造業SEエンジニアの視点から実機検証した結果を継続的に発信しています。
関連記事:
– Ollama × Claude Code:API費用ゼロでAIコーディング環境を構築する完全ガイド
– GPUなし・無料でClaude Codeを体験する方法|Ollamaクラウドモデル完全ガイド
– 【実践検証】Claude Code × Ollama Part2|72GBモデルで実際に開発してみた結果

コメント