【2026年最新】Apple Silicon で Gemma 4 E2B は Whisper を置き換えられるか — 4モデル日本語CER実測と選定ガイド

目次

1. この記事で分かること

Apple Silicon Mac でローカル音声認識を試そうとした時、多くの人が最初にぶつかる疑問は「Gemma 4 が音声対応したらしいけど、Whisper の代わりになるのか?」です。しかしこの質問はそもそも前提が間違っています

この記事では、私が実際に Apple Silicon Mac で Whisper large-v3 / Whisper large-v3-turbo / Gemma 4 E2B / Gemma 4 E4B の4モデルを同じ日本語音声で走らせ、CER(文字誤り率)・推論速度・メモリ挙動を実測しました。結果として、以下が明確に分かります。

  • Gemma 4 E2B は Whisper の代替ではない(そもそも解く問題が違う)
  • 日本語の純粋転写なら Whisper large-v3-turbo が第一選択(精度 同等、速度 5倍以上)
  • Gemma 4 を使うべき場面は「音声要約・質問応答など下流タスク込み」のケース
  • mlx-vlm での E4B 実行は環境によって Metal GPU Timeout が起きる(私の環境では発生。Ollama 等他ランタイムや十分メモリのある環境では動作報告あり)
  • mlx-vlm / mlx-whisper のリポジトリ名の罠huggingface-cliが deprecated、大文字小文字の罠)

最後に、あなたのユースケース別に「どのモデルを選ぶべきか」を決定木で整理します。

2. 【混乱ポイントの整理】Gemma 4 E2B は「ASR特化」ではなく「音声理解優先」モデル

Gemma 4の音声認識を試した記事を読み漁ると、ほぼ全ての記事が「Gemma 4 E2BはWhisperの代替」という前提で書いていますが、これが選定を間違える最大の原因です。

なお Google 公式も Gemma 4 の音声機能として ASR(自動音声認識)を列挙しており、Gemma 4 も ASR は可能です。ただし設計思想の中心は「音声を入力にできるマルチモーダル LLM」であり、専用 ASR 設計の Whisper とは立ち位置が異なります。

両者は解く問題が違います。

観点Whisper large-v3 / turboGemma 4 E2B / E4B
モデル分類自動音声認識(ASR)マルチモーダルLLM
主目的音声 → 正確な転写音声 → 意味理解・生成
得意なこと高速・高精度な文字起こし要約・質問応答・指示実行
苦手なこと要約・指示応答(そもそも目的外)短音声(1-3秒)で品質低下
典型ユースケース議事録の書き起こし、字幕生成「この音声の要点を3つにまとめて」

MindStudio の整理: “Whisper is better for pure transcription throughput; Gemma 4 is better when downstream task requires language understanding.”(純粋な転写スループットなら Whisper、下流タスクに言語理解が必要なら Gemma 4)

つまり「E2BのWERをWhisperと比較して E2Bの勝ち負けを決める」こと自体が的外れです。問うべきは「あなたのユースケースが転写そのものか、音声理解か」です。

なぜこの混乱が起きたか

  • Gemma 4 が公式に音声入力をサポートしたため、日本語記事の多くが「Whisper不要」と誤読した
  • E2B/E4B の「E」は Edge(端末)を意味し、モバイル・Macなどで動くことを強調した命名。これが「軽量ASR」と誤解を招きやすい
  • Whisper は ASR の代名詞化しており、音声入力機能があれば自動的に Whisper と比較されてしまう

3. 前提知識: ASR と音声理解モデルの違い

Whisper(OpenAI)の構造

WhisperはEncoder-Decoder型のASR(自動音声認識)モデルです。Encoderが音声のメルスペクトログラムを潜在表現に変換し、Decoderがその表現から文字列トークンを一つずつ自己回帰で生成します。目的は「音声 → テキスト」の転写に特化しており、Decoder側の言語理解能力は転写支援の範囲に限定されます。

Gemma 4 E2B/E4B の構造

Gemma 4 E2B/E4B は マルチモーダルLLMで、USM(Universal Speech Model)ベースの音声エンコーダを内蔵しています。音声入力は視覚・テキストと同じトークン空間に射影され、推論側のデコーダはGemma 4本体のLLMです。つまり「音声を理解した上でテキスト生成・要約・質問応答ができる」のが本質で、単純な転写は副次的な用途です。

この違いを理解しないと「E2B の WER が Whisper より悪い」という結果を「E2Bは性能が低い」と誤読しがちですが、それは比較の軸を間違えているだけです。

4. 検証環境セットアップ(Apple Silicon)

前提

  • MacBook(Apple Silicon、M1 以降)
  • メモリは用途次第。Google公式メモリ要件: Gemma 4 E4B は BF16で15GB / 8bitで7.5GB / 4bitで5GB。4bit量子化(本記事で使用)なら理論上16GB Macでも動く
  • ただし mlx-vlm での E4B 実行は 環境によって Metal GPU Timeout が発生する場合あり(後述の本記事実測)。安定重視なら実メモリ24GB以上もしくは Ollama 等の別ランタイムを推奨
  • macOS 26.x
  • Python 3.11+ / uv

インストール

uv init gemma4-whisper-bench
cd gemma4-whisper-bench
uv add "mlx-vlm>=0.4.3" mlx-whisper jiwer librosa datasets pandas soundfile

モデル取得

hf download mlx-community/gemma-4-e2b-it-4bit
hf download mlx-community/gemma-4-e4b-it-4bit

hf download mlx-community/whisper-large-v3-mlx
hf download mlx-community/whisper-large-v3-turbo

罠1: 旧 huggingface-cli は2026年に deprecated となり hf CLI に置き換わっています。旧コマンドはまだ警告付きで動作しますが、既存記事のコマンドをそのままコピペする時は新CLIへの置換を推奨します。


罠2: mlx-community/gemma-4-E2B-it-4bit-mlx のような大文字・-mlx 付き表記のリポジトリは存在しません。小文字・suffix無しが正しい名前です。

: Gemma 4 のライセンスは Apache 2.0(旧世代のGemma TOUではありません)。商用利用・改変・再配布が許諾されています。

5. 検証プロトコル

評価データ: macOS TTS(Kyoko音声)で合成した10サンプル

当初は Common Voice 日本語 v17 / Google FLEURS ja_jp を使う予定でしたが、2026年4月時点で datasets ライブラリの仕様変更により両方ともストリーミング取得が失敗しました(Common Voiceは EmptyDatasetError、FLEURSは「Dataset scripts are no longer supported」)。

そこで一次検証として、macOSの say コマンド(Kyoko音声) で日本語合成音声を10サンプル作成しました。利点と限界は以下の通りです。

利点:
– 即時実行可能(外部データセット依存なし)
– 正解テキストが明確(TTS入力がそのまま正解)
– ライセンス問題なし

限界:
– 実環境の雑音・アクセント揺れ・発話の癖が入らない → 理想環境での比較となる
– TTSで「ウィスパー」「アップルシリコン」などカタカナ表記した発音は、ASRが「Whisper」「Apple Silicon」と英語に戻す傾向がある(本検証でも観測)

内訳:
– 短音声 1-3秒 × 5(日常会話)
– 中音声 7-9秒 × 3(技術用語を含む説明文)
– 長音声 16-18秒 × 2(固有名詞を多数含む複文)

メトリクス

  • WER (Word Error Rate): 形態素分割後の単語誤り率
  • CER (Character Error Rate): 文字誤り率(日本語では重要)
  • 処理時間: 推論開始→終了
  • メモリ使用量: psutil + MLX metal活用量(Unified Memory)
  • 固有名詞認識率: 目視評価

スクリプト

検証スクリプト benchmark.py は本記事末尾のGitHubに公開しています。

6. 【実測結果】4モデル日本語 WER 比較表

定量結果

【表:4モデル実測比較】

モデルCER (%)平均推論時間 (秒)備考
Gemma 4 E2B25.65%3.79最速だが精度は最低
Gemma 4 E4B測定不可Metal GPU Timeout(メモリ16GB想定)
Whisper large-v315.96%46.07精度高いが重い
Whisper large-v3-turbo14.84%8.90本検証の最推奨モデル

重要な注記:
– TTS合成音声(macOS Kyoko音声)での一次検証。実環境評価は今後の課題
– WERは日本語では単語境界が曖昧なため信頼性が低い(値100%超になる)。CERを主指標とする
– メモリ値はPython側のみ(tracemalloc)。MLX metal層は別途 Activity Monitor で確認推奨
– Gemma 4 E2B は mlx_vlm.generate の戻り値が GenerationResult オブジェクトのため、 .text 属性から抽出してCER計算

固有名詞・専門用語の誤認パターン

TTS入力で「カタカナ表記した技術用語」を各モデルがどう処理したかを比較:

入力(TTS)Whisper large-v3Whisper turboGemma 4 E2B
アップルシリコンApple Silicon ✓Apple Silicon ✓あるシリコン ✗
ウィスパー(日本語)ウィスパー ✓ウィスパー ✓EISパノ ✗
ラージVスリーロアージV3 △Large V3 ✓LGV3 △
クロードクロード ✓クロード ✓グロード △
ジェマ・フォーGemma 4 ✓JEMA4 △ジェマボ △
ターボ(版)Verbo ✗バーボ ✗バーボ ✗

観察:
– Whisper両モデルは「カタカナ表記→英語正式名称」への自動変換が得意
– E2B は固有名詞をより誤認しやすい(「アップル→ある」「ウィスパー→EISパノ」など)
– 「ターボ」は全モデルで誤認(TTSの発音と綴りの乖離が原因)

定性観察

Gemma 4 E2B の出力傾向:
– 句点「。」を末尾から落とす(全10サンプル中ほぼすべてで観測)
– 「扱えます」→「扱います」のように類似語への書き換えが起きる
– 「Oispar GV3」のように出力テキストがハルシネーションする箇所あり
– これらは「ASR として正確に転写しようとしていない」挙動で、音声理解モデルとしての性質が出ている

Gemma 4 E4B の挙動(本記事環境での実測):
– モデルロードは成功(3.5GB の重み取得完了)
– 最初の推論呼び出しで [METAL] Command buffer execution failed: Caused GPU Timeout Error が発生
重要な補足: これは mlx-vlm × 本記事環境での実測トラブルであり、一般化すべきではない
– Google 公式メモリ要件(Gemma 4 Model Overview)では E4B の 4bit 量子化は 5GB
– 他の検証記事(SudoAll / Classmethod DevIO)では 16GB Mac + Ollama 経由で E4B が快適動作
– 本記事の Timeout は mlx-vlm 特有の挙動か、私の環境固有の要因(Unified Memory 競合など)の可能性
– 安定して E4B を使いたい場合は、別ランタイム(Ollama) もしくは 十分なメモリ余裕 を確保することを推奨

Whisper large-v3 vs turbo:
– CERはほぼ同等(15.96% vs 14.84%)、turbo が微勝ち
– 推論速度は turbo が 5倍以上高速(46.07秒 vs 8.90秒/sample平均)
– 短音声では両モデル完璧(句点差のみ)。差は中〜長音声の固有名詞のみ
– 結論: 日本語転写ではturboを第一選択にすべき

7. 公式ベストプラクティス

Google (Gemma 4) の推奨

  • 用途選択: 音声 + 視覚 + テキストのマルチモーダル理解が必要な時に選ぶ。純粋な転写だけなら専用ASR推奨(公式自身が明記)
  • 入力長: 音声入力は30秒以内を推奨。これを超えるとエンコーダ側の文脈長制限で品質が低下
  • 量子化: 4bit量子化版でもマルチモーダル性能は維持される。Apple Siliconなら4bit推奨

OpenAI (Whisper) の推奨

  • large-v3-turbo は大半のケースで large-v3 に近い精度を 8倍高速 で達成。特にバッチ処理では turbo を第一選択とすべき
  • 30秒以上の音声は自動チャンク処理されるが、タイムスタンプ精度は落ちる
  • 日本語では small / medium よりも large-v3 系が圧倒的に優位

8. やりがちなアンチパターン5選

  1. 短音声(1-3秒)に Gemma 4 E2B を使う → 公式が「短音声で品質低下」を明記。音声理解モデル共通の弱点で、転写したいだけなら Whisper turbo が確実
  2. Whisperに「この音声を要約して」と期待する → WhisperはASR。要約・質問応答は構造上不可能。要約したいなら Gemma 4 で音声理解 → 出力テキストを生成
  3. 16GB Mac で mlx-vlm 経由の E4B を過信する → 4bit量子化なら理論上5GBで足りるが、mlx-vlm 実行時に Metal GPU Timeout が発生するケースあり(本検証で実測)。Ollama 等の別ランタイムを併せて検討
  4. huggingface-cli コマンドをそのまま使う → 2026年にdeprecated。hf CLI に切り替え済み
  5. 旧リポジトリ名 mlx-community/gemma-4-E2B-it-4bit-mlx を使う → 存在しない。小文字の mlx-community/gemma-4-e2b-it-4bit が正しい名前

9. 選定決定木 — あなたのケースで選ぶべきモデル

本検証の結果を踏まえた決定フロー:

Q1: 欲しいのは「転写」か「音声理解(要約・質問応答)」か?
│
├─ 転写のみ
│   Q2: Macメモリは?
│   ├─ 16GB  → Whisper large-v3-turbo(本検証の王道)
│   └─ 24GB+ → Whisper large-v3-turbo(速度勝ち)
│              or kotoba-whisper-v2.2(純日本語・さらに低CER)
│
└─ 音声理解(要約・質問応答・指示実行)
    Q2: ランタイム・Macメモリは?
    ├─ mlx-vlm + 本記事環境           → E2B(E4B は Metal GPU Timeout 実測)
    ├─ Ollama or メモリ余裕のある Mac → E4B(4bit 量子化で 5GB 程度、精度良)
    └─ 軽量・実験用途                 → E2B(最速)

ペルソナ別推奨

  • 製造業情シス(議事録作成・固有名詞重視): Whisper large-v3-turbo + 固有名詞辞書(initial_prompt / プロンプト注入)
  • Mac開発者(音声コマンドの意図理解): 16GB Mac は Gemma 4 E2B、Ollama / 十分メモリ余裕があれば E4B
  • 速度優先の大量バッチ転写: Whisper large-v3-turbo
  • 純日本語にこだわる: kotoba-whisper-v2.2(本記事未検証だが公開ベンチマークで Whisper より良好)

10. 関連ツール比較表

本検証 + 公開ベンチマークを統合したツール比較:

ツールCER (本検証 TTS)推論速度Mac対応要約・指示応答ライセンス
Whisper large-v3-turbo14.84%8.9秒/s✓ MLXMIT
Whisper large-v315.96%46.0秒/s✓ MLXMIT
Gemma 4 E2B25.65%3.8秒/s✓ mlx-vlmApache 2.0
Gemma 4 E4B本検証で測定不能*✓ mlx-vlmApache 2.0
kotoba-whisper-v2.2**8.4% (JSUT 正規化) / 15.4% (JSUT 生)約6.3倍速✓ transformersApache-2.0
WhisperX≒large-v3✗ + 話者分離BSD

* 本記事の環境でのみ Metal GPU Timeout が発生(後述)。他環境(Ollama等)や十分なメモリ余裕のあるMacでは動作報告あり
* 公開ベンチマーク(kotoba-tech/kotoba-whisper GitHub より)。本検証では未測定。JSUT 正規化CER 8.4% / 生CER 15.4% / 速度は Whisper large-v3 比 6.3倍。Whisper large-v3 を日本語蒸留したモデルで、純日本語転写に特化するならkotoba-whisper-v2.2 が Whisper系で最強*

本検証から導かれる推奨優先度

  1. 純日本語転写のみ: kotoba-whisper-v2.2 (実行容易性重視なら Whisper large-v3-turbo)
  2. 多言語転写 + Apple Silicon: Whisper large-v3-turbo(本検証の王道)
  3. 音声理解(要約・質問応答): Gemma 4 E2B(24GB Mac なら E4B)
  4. 話者分離が必要: WhisperX

11. 実践チェックリスト

選定と検証のチェックリスト:

  • [ ] ユースケースは文字起こしか音声理解か明確にした
  • [ ] 扱う音声の長さを把握している(E2Bは短音声弱点)
  • [ ] Macのメモリを確認した(最低16GB、推奨24GB+)
  • [ ] mlx-vlm / mlx-whisper を最新版で導入した
  • [ ] Common Voice 10サンプルで自社データの代替評価を実施した
  • [ ] 固有名詞のテストケースを別途用意した
  • [ ] ライセンスを確認した(Gemma 4 は Apache 2.0、Whisper は MIT、kotoba-whisper は Apache 2.0)

12. まとめ

3行で整理

  1. Gemma 4 E2B は Whisper の置き換えではない。音声理解(要約・質問応答)が要るなら E2B/E4B、純粋転写なら Whisper。比較軸を間違えると選定を間違う
  2. 日本語の転写だけが目的なら Whisper large-v3-turbo 一択。本検証では large-v3 とほぼ同等の CER で 5倍以上高速
  3. Apple Silicon のメモリ容量とランタイムを意識する。私の環境では mlx-vlm 経由の E4B で Metal GPU Timeout が発生。Google公式の 4bit 要件は 5GB で 16GB Mac でも理論上動くため、Ollama など別ランタイムへの切替や環境見直しを選択肢に

筆者としての最終推奨

  • 議事録・字幕など純転写用途 → Whisper large-v3-turbo
  • 音声から要約・質問応答までやりたい → Gemma 4 E4B(mlx-vlm では環境により GPU Timeout あり、Ollama なら16GB Mac でも動作報告あり)
  • 軽量さ優先の実験用途 → Gemma 4 E2B(短音声だけなら要注意)
  • 外部 API に音声を送りたくないセキュリティ要件 → 上記いずれもローカル完結。さらに Gemma 4 は Apache 2.0 で商用利用も許諾

Gemma 4 の音声対応は「Whisper 駆逐」ではなく「ローカル音声理解という新カテゴリ」の幕開けです。Whisper と競うのではなく、役割分担の視点で使い分けるのが正解だと私は考えています。

参考資料


よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次