音声入力は便利ですが、こんな不安を感じたことはないでしょうか。
「議事録や機密の話を、クラウドの音声認識に喋って大丈夫だろうか」
TypeWhisperを使えば、音声をクラウドに送ることなく、Mac上だけで日本語の文字起こしが完結します。 ネット接続も不要で、データが外部に出ることはありません。
この記事は、次のような方を対象に書いています。
- 機密情報を扱うため、音声入力をクラウドに出せない方
- Mac(Apple Silicon)でローカル完結の音声入力を探している方
- ローカル音声認識の選択肢が多すぎて、どれを選べばいいか分からない方
この記事を読めば、日本語に実際に使えるローカル音声認識エンジンが、実測データをもとに把握できます。
この記事のポイント
- ローカル日本語音声認識は3系統(Whisper系・Parakeet・Qwen3 ASR)に整理できます
- デフォルトのままだと日本語が壊滅する、という落とし穴があります
- 同一音声で実測した結果、Qwen3 ASRが文字誤り率7.8%で最も高精度でした
ローカル日本語音声入力の「混乱」を整理する
最初に結論です。ローカル音声認識エンジンは多数ありますが、日本語で実用になるのは限られます。
なぜなら、エンジンごとに対応言語が大きく違うからです。名前が似ていても、日本語を想定していないものがあります。
主要なエンジンは、次の3系統に整理できます。
- Whisper系(WhisperKit / Whisper Large v3 Turbo):OpenAI由来。99言語以上(V3系で約100言語)に対応し、日本語も含みます
- Parakeet(NVIDIA系・TDT v3):高速ですが、対応は25の欧州言語のみで、日本語は対象外です
- Qwen3 ASR(Alibaba系・MLX):30言語+22の中国語方言(計52言語・方言)に対応し、日本語も含みます
この3系統の違いを知らずに選ぶと、「ローカルなのに日本語がまともに出ない」という事態になります。後半で、この差を実測の数値で示します。
なぜクラウドではなくローカルなのか
ローカル音声入力を選ぶ理由は、主に3つです。
第一に、機密性です。音声がMacの外に出ないため、社外秘の会議や個人情報を安心して扱えます。クラウドAPIだと、音声データが送信・保存される懸念が残ります。
第二に、オフライン動作です。ネットがない環境でも文字起こしできます。
第三に、コストです。ローカルモデルは無料で、APIの従量課金がありません。長時間の文字起こしでも料金を気にせず使えます。
TypeWhisperとは
TypeWhisperは、複数の音声認識エンジンを1つのアプリで切り替えられるMac用ツールです。
理由は、エンジンを「プラグイン」として追加する設計だからです。WhisperKit、Parakeet、Qwen3 ASRなど11種類のエンジンを、用途に応じて使い分けられます。
ライセンスはGPLv3のオープンソースで、グローバルホットキーを押すと、どのアプリにも音声入力できます(auto-paste対応)。
動作にはmacOS 14(Sonoma)以降とMacが必要です。Qwen3 ASRなどのローカルエンジンはApple Silicon(M1以降)が前提で、メモリは8GBが最低、16GB以上を推奨します。
この記事では、安定版のTypeWhisper(バージョン1.4)を、Apple M5 / メモリ16GB / macOS 26 の実機で検証しています(※2026年6月時点。なお後継のv1.5系はリリース候補が登場しており、近く安定版が切り替わる可能性があります)。
セットアップ(brew installから権限まで)
導入はHomebrewが最短です。次のコマンドでインストールできます。
brew install --cask typewhisper/tap/typewhisper
インストール後の手順は3ステップです。
- 起動して、マイクとアクセシビリティの権限を付与します
- 使うエンジンを選び、必要なモデルをダウンロードします
- グローバルホットキーを設定し、発話して動作を確認します
ここまでは簡単です。問題は「どのエンジンを選ぶか」です。
⚠️ 罠:デフォルトのParakeetは日本語が壊滅する
最初の落とし穴です。TypeWhisperの初期エンジンはParakeet(TDT v3)で、これは日本語をほぼ認識できません。
理由は、Parakeet TDT v3が主に欧州言語向けのモデルだからです。日本語の音声を入れると、無理にローマ字へ変換しようとして崩壊します。
実際に「貴社の記者が汽車で帰社した」という音声を入れると、出力はこうなりました。
Kissano qui sara, qui sa de kisasa.
日本語の文章として、まったく読めません。後述の実測では、文字誤り率が174%という壊滅的な数値でした。
つまり、セットアップ直後のまま使うと「ローカル音声入力は使えない」と誤解しかねません。日本語ユーザーは、必ずエンジンを変更する必要があります。
Qwen3 ASRを導入する(プラグイン手動インストール)
日本語の本命はQwen3 ASRです。Qwen3はTypeWhisperに同梱されたエンジンですが、初期状態では有効化されていないことがあります。
まずはアプリ内のアドオン(Marketplace)画面から「Qwen3 ASR」を探して有効化してください。 これが正規かつ最短の方法です。
もしアドオン画面に表示されない場合や、確実に導入したい場合は、公式リリースから手動でも入れられます(下記URLは2026年6月時点で配布を確認済み)。手順は次の通りです。
# 1. プラグインをダウンロード(要TypeWhisper 1.4以上・Apple Silicon)
curl -L -o Qwen3Plugin.zip \
https://github.com/TypeWhisper/typewhisper-mac/releases/download/plugin-qwen3-v1.1.3/Qwen3Plugin.zip
unzip Qwen3Plugin.zip
# 2. プラグインフォルダに配置(署名を保つため ditto を使用)
ditto Qwen3Plugin.bundle \
"$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"
# 3. ダウンロード由来のブロックを解除
xattr -dr com.apple.quarantine \
"$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"
配置後、アプリを再起動すると、エンジン一覧に「Qwen3 ASR (MLX)」が表示されます。これを選び、モデルをダウンロードすれば準備完了です。APIキーは不要です。
💡 補足:bundleを置くだけではエンジン一覧に出ない場合があります。その時はアプリのアドオン画面から有効化(インストール)し直してください。
【実測】3エンジンの日本語CERを比較する
ここからが本題です。同じ音声を3エンジンに入れて、文字誤り率(CER)を測りました。
公平に比べるため、リアルタイムの発話ではなく、日本語TTS(Irodori-TTS)で生成した同一音声を使いました。入力テキストが分かっているので、誤り率を機械的に計算できます。
検証した10文には、同音異義語・数字・日付・カタカナ固有名詞など、認識が難しい要素を意図的に含めました。
結果は次のグラフの通りです。

文字誤り率CER(低いほど高精度)。IrodoriTTS合成10文・Apple M5・2026年6月時点。
総合の文字誤り率(CER)は、次のようになりました。
- Qwen3 ASR(0.6B-8bit):7.8% — 最も高精度
- WhisperKit(Whisper Large v3 Turbo):16.3% — 実用域
- Parakeet TDT v3:174.0% — 日本語では使用不可
Qwen3 ASRが、わずか0.6Bという小さなモデルで最高精度を出しました。日本語のローカル音声入力なら、現時点ではQwen3 ASRが第一候補です。
計測でわかった3つのこと
数値の裏側には、知っておくと役立つ事実があります。
Qwen3が勝った主因は「表記の素直さ」
Qwen3 ASRは「十六ギガバイト」「二千二十六年」を、喋った通りの表記で出力しました。一方Whisperは「16GB」「2026年」と自動で正規化します。
どちらも意味は正しいのですが、今回の採点では表記の違いが誤りとしてカウントされます。つまりWhisperの16.3%には、実力以上の減点が含まれます。厳密に比べるなら、数字や略語の表記をそろえてから測るべきです。
同音異義語は全エンジンの共通の弱点
「貴社・記者・汽車・帰社」のような同音異義語は、どのエンジンも苦戦しました。これは文脈なしでは人間でも難しい部分です。辞書登録や文脈プロンプトで改善できる余地があります。
用途で選び分ける
実測を踏まえると、選び方はシンプルです。
- 日本語メイン:Qwen3 ASR(精度最優先)
- 多言語の文字起こし:WhisperKit(Whisper Large v3 Turbo)。ただしTurboは英語への翻訳モードが苦手なので、翻訳目的なら無印のLarge v3を選びましょう
- 欧州言語のみ・速度優先:Parakeet(日本語では選ばない)
やりがちなアンチパターン
最後に、つまずきやすいポイントをまとめます。
- ⚠️ デフォルトのまま日本語を喋る:Parakeetでは崩壊します。必ずエンジンを変更しましょう
- ⚠️ 16GBで大型モデルを選ぶ:メモリに収まるモデル(Qwen3 0.6BやWhisper Large v3 Turbo)を選びましょう
- ⚠️ 権限の付与忘れ:マイクとアクセシビリティを許可しないと動作しません
- ⚠️ クリーン音声だけで判断する:TTS音声は雑音がありません。実際のマイク環境でも一度試しましょう
まとめ
今回は、声を外に出さないローカル日本語音声入力について、TypeWhisperで3エンジンを実測比較しました。
この記事のポイント
- ローカル音声認識は3系統に整理でき、日本語で実用になるのは限られます
- デフォルトのParakeetは日本語が壊滅するため、エンジン変更が必須です
- 同一音声の実測では、Qwen3 ASRが文字誤り率7.8%で最高精度でした
TypeWhisperとQwen3 ASRを組み合わせれば、機密を外に出さずに、日本語の音声入力を高精度で実現できます。 クラウドに喋るのをためらっていた作業こそ、ローカルに置き換える価値があります。
今日から、ローカル音声入力を試してみてください。

コメント