ローカル日本語音声入力完全ガイド｜TypeWhisper実測比較

2026年6月28日

音声入力は便利ですが、こんな不安を感じたことはないでしょうか。

「議事録や機密の話を、クラウドの音声認識に喋って大丈夫だろうか」

TypeWhisperを使えば、音声をクラウドに送ることなく、Mac上だけで日本語の文字起こしが完結します。 ネット接続も不要で、データが外部に出ることはありません。

この記事は、次のような方を対象に書いています。

機密情報を扱うため、音声入力をクラウドに出せない方
Mac（Apple Silicon）でローカル完結の音声入力を探している方
ローカル音声認識の選択肢が多すぎて、どれを選べばいいか分からない方

この記事を読めば、日本語に実際に使えるローカル音声認識エンジンが、実測データをもとに把握できます。

この記事のポイント

ローカル日本語音声認識は3系統（Whisper系・Parakeet・Qwen3 ASR）に整理できます
デフォルトのままだと日本語が壊滅する、という落とし穴があります
同一音声で実測した結果、Qwen3 ASRが文字誤り率7.8%で最も高精度でした

ローカル日本語音声入力の「混乱」を整理する

最初に結論です。ローカル音声認識エンジンは多数ありますが、日本語で実用になるのは限られます。

なぜなら、エンジンごとに対応言語が大きく違うからです。名前が似ていても、日本語を想定していないものがあります。

主要なエンジンは、次の3系統に整理できます。

Whisper系（WhisperKit / Whisper Large v3 Turbo）：OpenAI由来。99言語以上（V3系で約100言語）に対応し、日本語も含みます
Parakeet（NVIDIA系・TDT v3）：高速ですが、対応は25の欧州言語のみで、日本語は対象外です
Qwen3 ASR（Alibaba系・MLX）：30言語＋22の中国語方言（計52言語・方言）に対応し、日本語も含みます

この3系統の違いを知らずに選ぶと、「ローカルなのに日本語がまともに出ない」という事態になります。後半で、この差を実測の数値で示します。

なぜクラウドではなくローカルなのか

ローカル音声入力を選ぶ理由は、主に3つです。

第一に、機密性です。音声がMacの外に出ないため、社外秘の会議や個人情報を安心して扱えます。クラウドAPIだと、音声データが送信・保存される懸念が残ります。

第二に、オフライン動作です。ネットがない環境でも文字起こしできます。

第三に、コストです。ローカルモデルは無料で、APIの従量課金がありません。長時間の文字起こしでも料金を気にせず使えます。

TypeWhisperとは

TypeWhisperは、複数の音声認識エンジンを1つのアプリで切り替えられるMac用ツールです。

理由は、エンジンを「プラグイン」として追加する設計だからです。WhisperKit、Parakeet、Qwen3 ASRなど11種類のエンジンを、用途に応じて使い分けられます。

ライセンスはGPLv3のオープンソースで、グローバルホットキーを押すと、どのアプリにも音声入力できます（auto-paste対応）。

動作にはmacOS 14（Sonoma）以降とMacが必要です。Qwen3 ASRなどのローカルエンジンはApple Silicon（M1以降）が前提で、メモリは8GBが最低、16GB以上を推奨します。

この記事では、安定版のTypeWhisper（バージョン1.4）を、Apple M5 / メモリ16GB / macOS 26 の実機で検証しています（※2026年6月時点。なお後継のv1.5系はリリース候補が登場しており、近く安定版が切り替わる可能性があります）。

セットアップ（brew installから権限まで）

導入はHomebrewが最短です。次のコマンドでインストールできます。

brew install --cask typewhisper/tap/typewhisper

インストール後の手順は3ステップです。

起動して、マイクとアクセシビリティの権限を付与します
使うエンジンを選び、必要なモデルをダウンロードします
グローバルホットキーを設定し、発話して動作を確認します

ここまでは簡単です。問題は「どのエンジンを選ぶか」です。

⚠️ 罠：デフォルトのParakeetは日本語が壊滅する

最初の落とし穴です。TypeWhisperの初期エンジンはParakeet（TDT v3）で、これは日本語をほぼ認識できません。

理由は、Parakeet TDT v3が主に欧州言語向けのモデルだからです。日本語の音声を入れると、無理にローマ字へ変換しようとして崩壊します。

実際に「貴社の記者が汽車で帰社した」という音声を入れると、出力はこうなりました。

Kissano qui sara, qui sa de kisasa.

日本語の文章として、まったく読めません。後述の実測では、文字誤り率が174%という壊滅的な数値でした。

つまり、セットアップ直後のまま使うと「ローカル音声入力は使えない」と誤解しかねません。日本語ユーザーは、必ずエンジンを変更する必要があります。

Qwen3 ASRを導入する（プラグイン手動インストール）

日本語の本命はQwen3 ASRです。Qwen3はTypeWhisperに同梱されたエンジンですが、初期状態では有効化されていないことがあります。

まずはアプリ内のアドオン（Marketplace）画面から「Qwen3 ASR」を探して有効化してください。 これが正規かつ最短の方法です。

もしアドオン画面に表示されない場合や、確実に導入したい場合は、公式リリースから手動でも入れられます（下記URLは2026年6月時点で配布を確認済み）。手順は次の通りです。

# 1. プラグインをダウンロード（要TypeWhisper 1.4以上・Apple Silicon）
curl -L -o Qwen3Plugin.zip \
  https://github.com/TypeWhisper/typewhisper-mac/releases/download/plugin-qwen3-v1.1.3/Qwen3Plugin.zip
unzip Qwen3Plugin.zip

# 2. プラグインフォルダに配置（署名を保つため ditto を使用）
ditto Qwen3Plugin.bundle \
  "$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"

# 3. ダウンロード由来のブロックを解除
xattr -dr com.apple.quarantine \
  "$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"

配置後、アプリを再起動すると、エンジン一覧に「Qwen3 ASR (MLX)」が表示されます。これを選び、モデルをダウンロードすれば準備完了です。APIキーは不要です。

💡 補足：bundleを置くだけではエンジン一覧に出ない場合があります。その時はアプリのアドオン画面から有効化（インストール）し直してください。

【実測】3エンジンの日本語CERを比較する

ここからが本題です。同じ音声を3エンジンに入れて、文字誤り率（CER）を測りました。

公平に比べるため、リアルタイムの発話ではなく、日本語TTS（Irodori-TTS）で生成した同一音声を使いました。入力テキストが分かっているので、誤り率を機械的に計算できます。

検証した10文には、同音異義語・数字・日付・カタカナ固有名詞など、認識が難しい要素を意図的に含めました。

結果は次のグラフの通りです。

ローカル日本語音声認識エンジンのCER比較。Qwen3 ASRが7.8%、WhisperKitが16.3%、Parakeetが174.0%

文字誤り率CER（低いほど高精度）。IrodoriTTS合成10文・Apple M5・2026年6月時点。

総合の文字誤り率（CER）は、次のようになりました。

Qwen3 ASR（0.6B-8bit）：7.8% — 最も高精度
WhisperKit（Whisper Large v3 Turbo）：16.3% — 実用域
Parakeet TDT v3：174.0% — 日本語では使用不可

Qwen3 ASRが、わずか0.6Bという小さなモデルで最高精度を出しました。日本語のローカル音声入力なら、現時点ではQwen3 ASRが第一候補です。

計測でわかった3つのこと

数値の裏側には、知っておくと役立つ事実があります。

Qwen3が勝った主因は「表記の素直さ」

Qwen3 ASRは「十六ギガバイト」「二千二十六年」を、喋った通りの表記で出力しました。一方Whisperは「16GB」「2026年」と自動で正規化します。

どちらも意味は正しいのですが、今回の採点では表記の違いが誤りとしてカウントされます。つまりWhisperの16.3%には、実力以上の減点が含まれます。厳密に比べるなら、数字や略語の表記をそろえてから測るべきです。

同音異義語は全エンジンの共通の弱点

「貴社・記者・汽車・帰社」のような同音異義語は、どのエンジンも苦戦しました。これは文脈なしでは人間でも難しい部分です。辞書登録や文脈プロンプトで改善できる余地があります。

用途で選び分ける

実測を踏まえると、選び方はシンプルです。

日本語メイン：Qwen3 ASR（精度最優先）
多言語の文字起こし：WhisperKit（Whisper Large v3 Turbo）。ただしTurboは英語への翻訳モードが苦手なので、翻訳目的なら無印のLarge v3を選びましょう
欧州言語のみ・速度優先：Parakeet（日本語では選ばない）

やりがちなアンチパターン

最後に、つまずきやすいポイントをまとめます。

⚠️ デフォルトのまま日本語を喋る：Parakeetでは崩壊します。必ずエンジンを変更しましょう
⚠️ 16GBで大型モデルを選ぶ：メモリに収まるモデル（Qwen3 0.6BやWhisper Large v3 Turbo）を選びましょう
⚠️ 権限の付与忘れ：マイクとアクセシビリティを許可しないと動作しません
⚠️ クリーン音声だけで判断する：TTS音声は雑音がありません。実際のマイク環境でも一度試しましょう

まとめ

今回は、声を外に出さないローカル日本語音声入力について、TypeWhisperで3エンジンを実測比較しました。

この記事のポイント

ローカル音声認識は3系統に整理でき、日本語で実用になるのは限られます
デフォルトのParakeetは日本語が壊滅するため、エンジン変更が必須です
同一音声の実測では、Qwen3 ASRが文字誤り率7.8%で最高精度でした

TypeWhisperとQwen3 ASRを組み合わせれば、機密を外に出さずに、日本語の音声入力を高精度で実現できます。 クラウドに喋るのをためらっていた作業こそ、ローカルに置き換える価値があります。

今日から、ローカル音声入力を試してみてください。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

ローカル日本語音声入力完全ガイド｜TypeWhisper実測比較

ローカル日本語音声入力の「混乱」を整理する

なぜクラウドではなくローカルなのか

TypeWhisperとは

セットアップ（brew installから権限まで）

⚠️ 罠：デフォルトのParakeetは日本語が壊滅する

Qwen3 ASRを導入する（プラグイン手動インストール）

【実測】3エンジンの日本語CERを比較する

計測でわかった3つのこと

Qwen3が勝った主因は「表記の素直さ」

同音異義語は全エンジンの共通の弱点

用途で選び分ける

やりがちなアンチパターン

まとめ

コメント

コメントするコメントをキャンセル

ローカル日本語音声入力 完全ガイド｜TypeWhisper実測比較

ローカル日本語音声入力の「混乱」を整理する

なぜクラウドではなくローカルなのか

TypeWhisperとは

セットアップ（brew installから権限まで）

⚠️ 罠：デフォルトのParakeetは日本語が壊滅する

Qwen3 ASRを導入する（プラグイン手動インストール）

【実測】3エンジンの日本語CERを比較する

計測でわかった3つのこと

Qwen3が勝った主因は「表記の素直さ」

同音異義語は全エンジンの共通の弱点

用途で選び分ける

やりがちなアンチパターン

まとめ

コメント

コメントする コメントをキャンセル

ローカル日本語音声入力完全ガイド｜TypeWhisper実測比較

コメントするコメントをキャンセル