【2026年最新】GLM-5.2をClaude Codeで動かす実測ガイド — Ollama Cloudなら自前GPU不要、ただし無料枠では動かない

前回の記事では、16GBのMacにローカルLLMを詰め込んでClaude Codeを動かそうとして、壁にぶつかりました。qwen3-coder:30bを走らせたところ、生成速度は0.20 tok/s。文字が1秒に1個も出てこない。30Bクラスのモデルを自前GPUで快適に動かすには、結局24GB以上のVRAMが必要という、身も蓋もない結論でした。

では、自分のマシンでは動かない大型のOSSモデルを、誰かのGPUを借りて動かせたらどうか。今回はその答えのひとつ、GLM-5.2をOllama Cloud経由でClaude Codeのバックエンドに使う話です。756Bという桁違いのモデルが、自前GPUゼロで動きました。ただし、たどり着くまでに「無料枠では403で弾かれる」という落とし穴があったので、そこも含めて実機検証した全工程を残しておきます。

※本記事は2026年6月時点の実測です。Ollama Cloudのモデルラインナップと料金は更新が速いため、実行前に公式の料金ページモデルページを再確認してください。

目次

この記事で分かること

  • GLM-5.2がOllama Cloudの無料枠では動かない理由(403エラーの正体)
  • ollama launch claude --model glm-5.2:cloud でClaude Codeに繋ぐ具体的手順
  • 実測した生成速度(56 tok/s)と、無料枠モデルとの比較
  • 「自前GPUを増設する」か「Pro課金する」かの判断軸
  • やりがちなアンチパターン4選

自前GPUの限界を感じていて、強いOSSモデルでClaude Codeを動かしたい人に向けた、続編の実測ガイドです。

【最重要】GLM-5.2はOllama Cloudの「無料枠」では動かない

最初にいちばん大事なことを書きます。ここで多くの人がつまずきます。

GLM-5.2は、ollama showでモデル情報を確認できます

ollama show glm-5.2:cloud
# architecture: glm5.2 / parameters: 756B / context length: 1000000
# capabilities: thinking, completion, tools

メタデータがちゃんと返ってくるので「お、使える」と思って実行すると、こうなります。

ollama run glm-5.2:cloud
# Error: 403 Forbidden: this model requires a subscription,
# upgrade for access: https://ollama.com/upgrade

ollama showが通ること=使えること、ではありません。 GLM-5.2はOllama Cloudの有料モデルで、無料枠(Free)では推論を実行できません。同じアカウントでも、無料枠で動くクラウドモデル(後述のnemotronなど)とGLM-5.2は枠が違うのです。

実際に、私のアカウントではnemotron-3-ultra:cloudは無料枠で普通に応答しましたが、GLM-5.2だけが403で弾かれました。動かすにはPro($20/月)以上の契約が必要です。

なぜ「ローカル」ではなく「クラウドホストOSS」なのか

ここで前作の話に戻ります。ローカルLLMの魅力は「自分のマシンで完結する=データが外に出ない・無料で回し続けられる」ことです。私もそれを追ってきました。

ただ現実には、コーディング用途で使い物になる大型モデル(30B〜)は、コンシューマ機のVRAMに収まりきりません。前作の実測では16GB機で30Bは0.20 tok/s、つまり「動くけど使えない」状態でした。

GLM-5.2は756Bです。ローカルで動かす土俵にすら乗りません。そこでOllama Cloudが提供するのが「OSSモデルの重みは公開(MIT)だが、推論はOllamaのクラウドGPU(@ollamaの告知ではUS・NVIDIA Blackwell)で回す」という選択肢です。自前GPU不要で大型OSSモデルを使える代わりに、推論コストを課金で払う。ローカルの「無料・自己完結」とは別の現実解です。

GLM-5.2とは何者か

ollama showで取れた実データと公式情報を整理します。

  • パラメータ: 約756B(MoEクラスのフロンティアOSSモデル)
  • コンテキスト長: 1,000,000トークン(実用的な1Mコンテキスト、プロジェクト全体を投入しやすい)
  • 能力: thinking(推論)/ completion / tools(ツール呼び出し対応=エージェント用途に必要)
  • ライセンス: MIT(重みが公開され、技術的にはどこでも動かせる)
  • 性能ポジション: 公式説明では、同程度のトークン消費でClaude Opus 4.7〜4.8の間あたりのagentic codingを発揮するとされています(※提供元公称。本記事では速度のみ実測)

toolsに対応している点が重要です。これがあるからこそ、Claude Codeのようなエージェントツールのバックエンドとして機能します。

セットアップ:Pro契約とサインイン確認

手順はシンプルです。

  1. https://ollama.com/upgrade でPro($20/月)を契約する
  2. CLIでサインイン済みのアカウントと同一であることを確認する
  3. トークンを念のため更新する
ollama signout && ollama signin

契約後、先ほど403だったollama run glm-5.2:cloudが通るようになれば準備完了です。

Claude Codeへの接続

接続方法は2つあります。公式の正準手順と、手動配線です。全体像はこの一枚で掴めます。

GLM-5.2 × Ollama Cloud から Claude Code への接続フロー図。自前GPU(16GB Mac)はメモリ不足で動かせず、Ollama Cloudの GLM-5.2(Pro必須)→ Anthropic互換API /v1/messages → Claude Code と繋がる
GLM-5.2 → Ollama Cloud → Anthropic互換API → Claude Code の接続フロー(2026年6月 実機検証)

方法1: ollama launch(推奨)

Ollamaには各種エージェントツールへ直接繋ぐlaunchコマンドがあります。

ollama launch claude --model glm-5.2:cloud

これでClaude CodeがGLM-5.2をバックエンドにして起動します。前作で紹介したollama launch claudeの、モデル指定をクラウドモデルに差し替えただけです。

方法2: 環境変数で手動配線

仕組みを理解したい人向けに、手動でも繋げます。OllamaはAnthropic互換のエンドポイント/v1/messages)を提供していて、Claude Codeはここを向くだけで動きます。

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_MODEL=glm-5.2:cloud
claude

実際にclaude -pでワンショット実行したところ、リターンコード0で正常終了し、応答も「自分はglm-5.2:cloudで動いている」と返ってきました。Claude Code → Ollama → GLM-5.2 のフルチェーンが成立しています。

念のためエンドポイント単体でも叩いて確認しました。

curl http://localhost:11434/v1/messages \
  -H "content-type: application/json" \
  -d '{"model":"glm-5.2:cloud","max_tokens":256,
       "messages":[{"role":"user","content":"hello"}]}'

レスポンスはAnthropic形式(content配列にthinkingブロックとtextブロック、usageにトークン数)で返ってきました。Claude Codeが期待する形式そのものです。

実測:生成速度ベンチ

同じコーディングタスク(argparseでCSVの統計を出すCLIツール、例外処理込み)を投げて、Ollama APIのtotal_durationから実効速度を出しました。比較対象は無料枠で動くnemotron-3-ultra:cloudです。

  • GLM-5.2:cloud(Pro): 出力3,925トークン / 69.9秒 / 約56 tok/s
  • nemotron-3-ultra:cloud(無料枠): 出力1,605トークン / 52.7秒 / 約30 tok/s

GLM-5.2は無料枠モデルの約1.8倍速く、生成内容もより網羅的でした。前作の「16GBローカル30B=0.20 tok/s」と比べれば、体感は別世界です。

Claude Codeバックエンドの生成速度 実測比較。対数スケールの横棒グラフで、ローカルqwen3-coder:30bが0.2 tok/s、Ollama Cloud nemotron(無料枠)が30.4 tok/s、Ollama Cloud GLM-5.2(Pro)が56.1 tok/s
生成速度の実測比較(対数スケール)。ローカル30Bの0.2 tok/sに対し、GLM-5.2は56.1 tok/s

ひとつ実装上のTIPSを。クラウドモデルはトークン単位の詳細タイミング(eval_durationなど)をAPIで返しません。 返ってくるのはtotal_durationだけです。だから実効速度は「出力トークン÷総時間」で概算するしかなく、しかもこの値はthinkingトークンとネットワーク往復を含んだエンドツーエンドの数字です。ローカルモデルのベンチとは計測の前提が違う点に注意してください。

料金の判断軸:Free / Pro / Max

Ollama Cloudの料金は3段階です(2026年6月時点)。

  • Free($0): 軽い利用向け。クラウドモデル1並列。GLM-5.2は対象外(403)
  • Pro($20/月): 無料枠の約50倍のクラウド利用、3並列。GLM-5.2が使える
  • Max($100/月): さらに上限が広い

判断の軸はシンプルです。「強いOSSモデルでClaude Codeを日常的に回したいが、自前GPUは足りない」なら、24GB以上のGPUを買い増す初期投資と、Pro月$20を比べることになります。月$20で756Bが56 tok/sで使えるなら、ハードを増設するより安く早い、というのが今回の実感です。一方、扱うコードが社外秘で外部に一切出せないなら、遅くてもローカル一択。ここはトレードオフです。

やりがちなアンチパターン4選

実機で踏んだ・踏みかけた罠をまとめます。

  1. ollama showが通る=使える、と誤認する。メタデータ取得と推論実行は別物。ollama runまで確認する。
  2. 無料枠でGLM-5.2を期待する。403で止まります。無料で試したいなら、まずnemotronなど無料枠対応モデルで感触を掴む。
  3. per-tokenの速度をローカル基準で語る。クラウドはtotal_durationしか返さないので、ローカルのtok/sと単純比較しない。
  4. 「クラウド=データが自由に使われる」と決めつける/逆に無条件で安心する。データ保持ポリシーは契約時点の公式記載を必ず自分で確認する(ゼロデータ保持を掲げていても、規約は更新されうる)。

ollama launch の広がり

最後に視野を広げると、ollama launchが繋げる先はClaude Codeだけではありません。実行環境で確認できた統合先は14以上ありました。

claude / codex / codex-app / copilot / opencode / cline /
qwen / droid / kimi / vscode / hermes / pi / pool / omp ...

つまりOllamaは「ローカルやクラウドのOSSモデルを、各種エージェントツールのバックエンドに差し込むランチャー」として育っています。GLM-5.2はその目玉モデルの一例にすぎず、同じ要領でCodexやClineにも繋げます。今回のClaude Code接続は、その入り口です。

実践チェックリスト

  • [ ] ollama --version でCloud対応版(本記事は0.30.8で検証)か確認
  • [ ] ollama show glm-5.2:cloud でモデル情報を確認
  • [ ] ollama run glm-5.2:cloud が403ならPro契約
  • [ ] 契約後 ollama signout && ollama signin でトークン更新
  • [ ] ollama launch claude --model glm-5.2:cloud で接続
  • [ ] 速度・データ保持ポリシーを自分の用途で確認

まとめ

  • GLM-5.2(756B / 1Mコンテキスト)は、自前GPUなしでOllama Cloud経由でClaude Codeのバックエンドにできる
  • ただし無料枠では403で動かず、Pro($20/月)以上が必須ollama showが通っても安心しない
  • 実測で約56 tok/s、無料枠モデルの約1.8倍。前作のローカル30B(0.20 tok/s)とは別世界
  • 接続はollama launch claude --model glm-5.2:cloudの一行。手動ならAnthropic互換エンドポイントに向けるだけ
  • 「自前GPU増設 vs 月$20課金」の天秤で、用途が外部に出せるなら課金が現実解になりやすい

ローカルで完結する自由は、やはり捨てがたい。ただ、自分のマシンが追いつかない領域では、クラウドホスト型のOSSモデルという中間解が現実的な選択肢になってくる。前作で行き止まりだった「大型モデル×Claude Code」が月$20で動き出したのは、正直、ちょっと痛快でした。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次