ローカル日本語音声入力 完全ガイド|TypeWhisper実測比較

音声入力は便利ですが、こんな不安を感じたことはないでしょうか。

「議事録や機密の話を、クラウドの音声認識に喋って大丈夫だろうか」

TypeWhisperを使えば、音声をクラウドに送ることなく、Mac上だけで日本語の文字起こしが完結します。 ネット接続も不要で、データが外部に出ることはありません。

この記事は、次のような方を対象に書いています。

  • 機密情報を扱うため、音声入力をクラウドに出せない方
  • Mac(Apple Silicon)でローカル完結の音声入力を探している方
  • ローカル音声認識の選択肢が多すぎて、どれを選べばいいか分からない方

この記事を読めば、日本語に実際に使えるローカル音声認識エンジンが、実測データをもとに把握できます。

この記事のポイント

  • ローカル日本語音声認識は3系統(Whisper系・Parakeet・Qwen3 ASR)に整理できます
  • デフォルトのままだと日本語が壊滅する、という落とし穴があります
  • 同一音声で実測した結果、Qwen3 ASRが文字誤り率7.8%で最も高精度でした
目次

ローカル日本語音声入力の「混乱」を整理する

最初に結論です。ローカル音声認識エンジンは多数ありますが、日本語で実用になるのは限られます。

なぜなら、エンジンごとに対応言語が大きく違うからです。名前が似ていても、日本語を想定していないものがあります。

主要なエンジンは、次の3系統に整理できます。

  • Whisper系(WhisperKit / Whisper Large v3 Turbo):OpenAI由来。99言語以上(V3系で約100言語)に対応し、日本語も含みます
  • Parakeet(NVIDIA系・TDT v3):高速ですが、対応は25の欧州言語のみで、日本語は対象外です
  • Qwen3 ASR(Alibaba系・MLX):30言語+22の中国語方言(計52言語・方言)に対応し、日本語も含みます

この3系統の違いを知らずに選ぶと、「ローカルなのに日本語がまともに出ない」という事態になります。後半で、この差を実測の数値で示します。

なぜクラウドではなくローカルなのか

ローカル音声入力を選ぶ理由は、主に3つです。

第一に、機密性です。音声がMacの外に出ないため、社外秘の会議や個人情報を安心して扱えます。クラウドAPIだと、音声データが送信・保存される懸念が残ります。

第二に、オフライン動作です。ネットがない環境でも文字起こしできます。

第三に、コストです。ローカルモデルは無料で、APIの従量課金がありません。長時間の文字起こしでも料金を気にせず使えます。

TypeWhisperとは

TypeWhisperは、複数の音声認識エンジンを1つのアプリで切り替えられるMac用ツールです。

理由は、エンジンを「プラグイン」として追加する設計だからです。WhisperKit、Parakeet、Qwen3 ASRなど11種類のエンジンを、用途に応じて使い分けられます。

ライセンスはGPLv3のオープンソースで、グローバルホットキーを押すと、どのアプリにも音声入力できます(auto-paste対応)。

動作にはmacOS 14(Sonoma)以降とMacが必要です。Qwen3 ASRなどのローカルエンジンはApple Silicon(M1以降)が前提で、メモリは8GBが最低、16GB以上を推奨します。

この記事では、安定版のTypeWhisper(バージョン1.4)を、Apple M5 / メモリ16GB / macOS 26 の実機で検証しています(※2026年6月時点。なお後継のv1.5系はリリース候補が登場しており、近く安定版が切り替わる可能性があります)。

セットアップ(brew installから権限まで)

導入はHomebrewが最短です。次のコマンドでインストールできます。

brew install --cask typewhisper/tap/typewhisper

インストール後の手順は3ステップです。

  • 起動して、マイクとアクセシビリティの権限を付与します
  • 使うエンジンを選び、必要なモデルをダウンロードします
  • グローバルホットキーを設定し、発話して動作を確認します

ここまでは簡単です。問題は「どのエンジンを選ぶか」です。

⚠️ 罠:デフォルトのParakeetは日本語が壊滅する

最初の落とし穴です。TypeWhisperの初期エンジンはParakeet(TDT v3)で、これは日本語をほぼ認識できません。

理由は、Parakeet TDT v3が主に欧州言語向けのモデルだからです。日本語の音声を入れると、無理にローマ字へ変換しようとして崩壊します。

実際に「貴社の記者が汽車で帰社した」という音声を入れると、出力はこうなりました。

Kissano qui sara, qui sa de kisasa.

日本語の文章として、まったく読めません。後述の実測では、文字誤り率が174%という壊滅的な数値でした。

つまり、セットアップ直後のまま使うと「ローカル音声入力は使えない」と誤解しかねません。日本語ユーザーは、必ずエンジンを変更する必要があります。

Qwen3 ASRを導入する(プラグイン手動インストール)

日本語の本命はQwen3 ASRです。Qwen3はTypeWhisperに同梱されたエンジンですが、初期状態では有効化されていないことがあります。

まずはアプリ内のアドオン(Marketplace)画面から「Qwen3 ASR」を探して有効化してください。 これが正規かつ最短の方法です。

もしアドオン画面に表示されない場合や、確実に導入したい場合は、公式リリースから手動でも入れられます(下記URLは2026年6月時点で配布を確認済み)。手順は次の通りです。

# 1. プラグインをダウンロード(要TypeWhisper 1.4以上・Apple Silicon)
curl -L -o Qwen3Plugin.zip \
  https://github.com/TypeWhisper/typewhisper-mac/releases/download/plugin-qwen3-v1.1.3/Qwen3Plugin.zip
unzip Qwen3Plugin.zip

# 2. プラグインフォルダに配置(署名を保つため ditto を使用)
ditto Qwen3Plugin.bundle \
  "$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"

# 3. ダウンロード由来のブロックを解除
xattr -dr com.apple.quarantine \
  "$HOME/Library/Application Support/TypeWhisper/Plugins/Qwen3Plugin.bundle"

配置後、アプリを再起動すると、エンジン一覧に「Qwen3 ASR (MLX)」が表示されます。これを選び、モデルをダウンロードすれば準備完了です。APIキーは不要です。

💡 補足:bundleを置くだけではエンジン一覧に出ない場合があります。その時はアプリのアドオン画面から有効化(インストール)し直してください。

【実測】3エンジンの日本語CERを比較する

ここからが本題です。同じ音声を3エンジンに入れて、文字誤り率(CER)を測りました。

公平に比べるため、リアルタイムの発話ではなく、日本語TTS(Irodori-TTS)で生成した同一音声を使いました。入力テキストが分かっているので、誤り率を機械的に計算できます。

検証した10文には、同音異義語・数字・日付・カタカナ固有名詞など、認識が難しい要素を意図的に含めました。

結果は次のグラフの通りです。

ローカル日本語音声認識エンジンのCER比較。Qwen3 ASRが7.8%、WhisperKitが16.3%、Parakeetが174.0%

文字誤り率CER(低いほど高精度)。IrodoriTTS合成10文・Apple M5・2026年6月時点。

総合の文字誤り率(CER)は、次のようになりました。

  • Qwen3 ASR(0.6B-8bit):7.8% — 最も高精度
  • WhisperKit(Whisper Large v3 Turbo):16.3% — 実用域
  • Parakeet TDT v3:174.0% — 日本語では使用不可

Qwen3 ASRが、わずか0.6Bという小さなモデルで最高精度を出しました。日本語のローカル音声入力なら、現時点ではQwen3 ASRが第一候補です。

計測でわかった3つのこと

数値の裏側には、知っておくと役立つ事実があります。

Qwen3が勝った主因は「表記の素直さ」

Qwen3 ASRは「十六ギガバイト」「二千二十六年」を、喋った通りの表記で出力しました。一方Whisperは「16GB」「2026年」と自動で正規化します。

どちらも意味は正しいのですが、今回の採点では表記の違いが誤りとしてカウントされます。つまりWhisperの16.3%には、実力以上の減点が含まれます。厳密に比べるなら、数字や略語の表記をそろえてから測るべきです。

同音異義語は全エンジンの共通の弱点

「貴社・記者・汽車・帰社」のような同音異義語は、どのエンジンも苦戦しました。これは文脈なしでは人間でも難しい部分です。辞書登録や文脈プロンプトで改善できる余地があります。

用途で選び分ける

実測を踏まえると、選び方はシンプルです。

  • 日本語メイン:Qwen3 ASR(精度最優先)
  • 多言語の文字起こし:WhisperKit(Whisper Large v3 Turbo)。ただしTurboは英語への翻訳モードが苦手なので、翻訳目的なら無印のLarge v3を選びましょう
  • 欧州言語のみ・速度優先:Parakeet(日本語では選ばない)

やりがちなアンチパターン

最後に、つまずきやすいポイントをまとめます。

  • ⚠️ デフォルトのまま日本語を喋る:Parakeetでは崩壊します。必ずエンジンを変更しましょう
  • ⚠️ 16GBで大型モデルを選ぶ:メモリに収まるモデル(Qwen3 0.6BやWhisper Large v3 Turbo)を選びましょう
  • ⚠️ 権限の付与忘れ:マイクとアクセシビリティを許可しないと動作しません
  • ⚠️ クリーン音声だけで判断する:TTS音声は雑音がありません。実際のマイク環境でも一度試しましょう

まとめ

今回は、声を外に出さないローカル日本語音声入力について、TypeWhisperで3エンジンを実測比較しました。

この記事のポイント

  • ローカル音声認識は3系統に整理でき、日本語で実用になるのは限られます
  • デフォルトのParakeetは日本語が壊滅するため、エンジン変更が必須です
  • 同一音声の実測では、Qwen3 ASRが文字誤り率7.8%で最高精度でした

TypeWhisperとQwen3 ASRを組み合わせれば、機密を外に出さずに、日本語の音声入力を高精度で実現できます。 クラウドに喋るのをためらっていた作業こそ、ローカルに置き換える価値があります。

今日から、ローカル音声入力を試してみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次