「社内文書の要約や契約書の下読みをAIにやらせたい。でも、機密データを外部のAPIに送るのは怖い」——この板挟みを解くのが、端末の中だけで完結するローカルLLMです。
2026年5月末、Liquid AI が公開した LFM2.5-8B-A1B は、その現実解として有力です。総8.3B・アクティブ1.5BのオンデバイスMoEで、Apple Silicon Mac でローカル動作し、日本語にも正式対応。データが端末から一歩も外に出ないまま、要約・下読み・ツール連携をこなせます。
本記事は「技術的にどういうモデルか」ではなく、「自社のMacで業務に使うべきか、安全で実用的なのか」を判断するための意思決定ガイドです。実機(Apple M5 / 16GB)での速度実測と、クラウドLLMとのセキュリティ比較を踏まえて、導入の線引きまで示します。
技術的な概念整理(「1月のLFM2.5」との違いやアーキテクチャの詳細)は、開発者向けに Zennの記事 にまとめています。本記事はそれを業務・プライバシー観点で再構成した版です。
この記事で分かること
- なぜ「機密データを外に出さない業務AI」にLFM2.5-8B-A1Bが向くのか
- クラウドLLMとオンデバイスLLMのセキュリティ上の本質的な違い(脅威モデル)
- 業務PC(Mac 16〜32GB)で本当に実用速度が出るのか(実測)
- 自社で導入すべきかを決める判断軸(スペック・コスト・ガバナンス・向く業務)
なぜ LFM2.5-8B-A1B が「業務 × プライバシー」で注目なのか
ローカルLLMは「重い・遅い・賢くない」というのが従来の弱点でした。LFM2.5-8B-A1B はここをMoE(Mixture-of-Experts)で崩します。総パラメータは8.3Bありますが、1トークン生成あたり実際に動くのは約1.5B分だけ。結果として、
- 省メモリ: 4bit量子化で約5GB、業務PCのMac(16GB)でも余裕で動く
- 高速: 毎回1.5Bしか動かさないので、小型モデル並みの速度
- 賢さは8B級に近い: 知識量は8B分を保持
という「軽いのに使える」を狙った設計です。さらに128Kの長文コンテキストと日本語の正式対応があり、社内文書のような長い日本語を扱う業務に向きます。何より、すべてが端末内で完結する——これが業務での最大の価値です。
30秒整理:「LFM2.5」は2つある(混同注意)
検索すると古い別モデルの記事が混ざるので、最初に整理します。
| LFM2.5 シリーズ(2026-01・密モデル) | LFM2.5-8B-A1B(2026-05-28・MoE)← 本記事 | |
|---|---|---|
| 形 | 1.2B 等の小型密モデル | ハイブリッドMoE(総8.3B / アクティブ1.5B) |
| 業務適性 | 軽量だが能力は限定的 | 長文・推論・ツール連携に対応、業務実用域 |
「LFM2.5」だけで検索すると1月の1.2B版の情報が多くヒットします。業務検討では「8B-A1B」まで指定して情報を集めてください。
セキュリティの核心:クラウドLLM vs オンデバイス
業務導入で本当に重要なのは速度より「データがどこを通るか」です。脅威モデルで比較します。
| 観点 | クラウドLLM(API) | オンデバイス(LFM2.5-8B-A1B) |
|---|---|---|
| データの送信先 | 外部のAPIサーバー | 端末内のみ・外部送信なし |
| 機密漏洩の経路 | 通信経路・ベンダー側保管・学習利用懸念 | 端末を守れば原理的に漏れない |
| オフライン/エアギャップ | 不可(要インターネット) | 可(完全オフライン動作) |
| ガバナンス | ベンダーのポリシー依存 | 自社の端末管理ポリシーに一元化 |
| ランニングコスト | 従量課金(使うほど増える) | API課金ゼロ(端末コストのみ) |
ポイントは「APIに送らない=そもそも漏れる経路が存在しない」こと。契約書・人事・顧客情報など、外部送信そのものが規程違反になりうるデータを扱う部署ほど、オンデバイスの価値が大きくなります。
業務PCで本当に動くのか:Mac実機で実測
「理屈は分かったが、普通の業務Macで実用速度が出るのか」が次の関門です。Apple M5 / 16GB(ハイエンドではない標準的なMac)で実測しました。
| 実行経路 | 量子化 | 生成速度 | メモリ |
|---|---|---|---|
| Ollama | Q4_K_M(約5GB) | 84.3 トークン/秒 | 約5〜6GB |
| MLX(公式・Apple Silicon) | 8bit(約8GB) | 58.3 トークン/秒 | 約9GB |
- 日本語品質は良好: 「3点・各1〜2文で説明して」という指示を正確に守り、文章も自然でした。
- 16GBのMacでも実用: 84トークン/秒は体感「読むより速い」。要約・下書き・チャットには十分です。
- メモリも業務PC範囲: 4bitなら約5〜6GBで、16GB機でも他の業務アプリと併用できます。
ハイプには注意: 「221〜253トークン/秒」という数字が出回っていますが、これは M5 Max 級の高位チップの値です。生成速度はメモリ帯域でほぼ決まるため、標準的なM5では公式値の約3分の1(実測84)が現実。それでも業務用途には十分実用、というのが正直なところです。
業務導入の判断軸
導入可否は「速いか」ではなく、次の4軸で判断します。
| 判断軸 | 目安 |
|---|---|
| 必要スペック | Apple Silicon Mac・メモリ16GB以上(推奨32GB)。4bit量子化で約5GB使用 |
| コスト | API課金ゼロ。端末コストのみ。使うほど得(クラウドは従量で増える) |
| ガバナンス | データが端末外に出ないため監査・規程対応が単純化。端末管理(MDM・暗号化)に集約 |
| 向く業務 | 社内文書要約・契約書下読み・日本語の整形/翻訳下訳・オフライン環境・ツール連携 |
| 向かない業務 | 重いコーディング・検索(RAG)なしの知識QA(公式が非推奨)。最新知識や難問は外部の大型モデル併用が無難 |
Liquid AI 自身が「重いコーディング」「検索なしの知識集約QA」を非推奨と明言しています。業務での線引きは「定型の処理・整形・要約」に寄せるのが成功の鍵です。難しい判断や最新情報が要る場面は、クラウドの大型モデルと使い分けます。
導入手順(Mac・最短ルート)
いちばん手軽:Ollama
# 公式GGUFをHugging Face経由で取得(Q4_K_M・約5GB)
ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M
Ollama は新しめのバージョンが必須(v0.17.1-rc0 以上。古い安定版はこのモデルで起動エラー)。
maternion/lfm2.5というコミュニティ版もありますが、Liquid公式ではない点に注意。公式はLiquidAI/LFM2.5-8B-A1B-GGUFです。
Apple Siliconで最適:MLX(公式)
mlx_lm.generate --model LiquidAI/LFM2.5-8B-A1B-MLX-8bit \
--prompt "次の議事録を3行で要約して:……" --max-tokens 512 --temp 0.2
推奨設定は temperature 0.2 / top_k 80 / repetition_penalty 1.05。業務では「ブレない・指示に忠実」が大事なので、低温度が向きます。
運用上の注意(つまずきポイント)
- 毎回「思考」が前置きされる: 本モデルは推論(reasoning)型で、回答の前に思考過程(
<think>…</think>)が必ず入ります。社内ツールに組み込むなら、思考部分を隠す処理を入れてください(興味深いことに思考は英語・回答は日本語で出ました)。 - ツール呼び出しは現状やや不安定: llama.cpp でツール連携を使う場合、既知の不具合(issue #23838)があります。問題報告自体は2026-05-30に解決扱いになりましたが、専用の修正(PR #23856)は2026-06-01時点でまだ取り込まれていません。ツール連携を本番で使うなら、修正済みビルドを待つか確認してから導入してください。
- 重い処理は過信しない: 前述の通り、難コーディングや最新知識のQAは不得手。得意な定型業務に絞るのが鉄則です。
まとめ:Mac 1台で完結する社内AIアシスタント
- 機密データを外に出さない——オンデバイスは「漏れる経路がそもそも無い」。規程・ガバナンス面で本質的に強い。
- 業務Macで実用速度——標準的なM5/16GBでも実測84トークン/秒・日本語良好。ハイプの221超は高位チップの話だが、業務には十分。
- コストはAPI課金ゼロ——使うほど得。端末コストに一元化。
- 向く業務に絞る——要約・下読み・整形・オフライン用途に。重コーディングや知識QAはクラウド併用。
「クラウドに送れないデータがあるから、AI活用を諦めていた」部署にこそ、Mac1台で動くLFM2.5-8B-A1Bは現実的な第一歩になります。
参考リンク
- Liquid AI 公式ブログ: LFM2.5-8B-A1B
- Hugging Face: LiquidAI/LFM2.5-8B-A1B(GGUF版 / MLX-8bit版)
- 開発者向けの技術整理(Zenn)
ライセンス: LFM Open License v1.0(Apache 2.0ベース)。個人・研究・非営利、および年間収益1,000万ドル未満の企業はロイヤリティフリーで商用利用・改変・再配布が可能。年間収益1,000万ドル超の企業のみ商用ライセンスが必要です。
鮮度メモ: ベンチはLiquid AI自社値、速度実測はApple M5/16GB・2026-06-01時点。バージョン等は変化が速いため導入時に最新情報をご確認ください。

コメント