「Moonshineが100倍速いらしいけど、実際どうなの?」
「Whisperとどう使い分ければいいの?」
「ローカルで音声認識するなら、結局どれがいいの?」
2026年2月にリリースされたMoonshine Voice v2、X.comでもかなり話題になっていました。ただ、自分のタイムラインを見ていると「思ったより速くない」「Faster-Whisperの方が全然速い」という声が多い印象でした。
気になったので、自分の環境で実際に試してみました。今回はTeams会議の録画データから音声を抽出して、11モデルで処理時間・精度・メモリを比較しています。
この記事は以下のような方に向けて書いています:
- Moonshine Voice v2が気になっているけど、実際どうなのか知りたい方
- 録音済みファイルの文字起こしを効率化したい方
- ローカル音声認識のモデル選びに迷っている方
この記事のポイント
- 「100倍速い」はファイル処理の話ではなく、ストリーミングレイテンシの話
- ファイルの文字起こし(バッチ処理)ではFaster-Whisperが圧倒的に速い
- Moonshineはリアルタイム音声入力向けの設計で、そもそも土俵が違う
- 今回はバッチ処理での比較なので、Moonshineにとっては不利な条件
- 次回、リアルタイム文字起こしで改めて検証予定
結論から言うと — そもそも用途が違った
最初に結論を書いてしまうと、WhisperとMoonshineは設計思想が根本的に違うツールでした。
- Whisper / Faster-Whisper: 録音済みファイルをまとめて処理する(バッチ処理)
- Moonshine Voice: マイクからの音声をリアルタイムに処理する(ストリーミング)
「どっちが速いか」を比較すること自体、ちょっとズレているかもしれません。ただ、今回はあえてバッチ処理で比べてみて、それぞれの特性を把握したかったというのが動機です。
| Whisper / Faster-Whisper | Moonshine Voice v2 | |
|---|---|---|
| 設計思想 | バッチ処理 | ストリーミング |
| 最適な用途 | 録音ファイルの文字起こし | リアルタイム音声入力 |
| 必要環境 | GPU推奨 | CPUだけで動く |
| 44秒音声の処理 | 0.5〜5.5秒 | 89秒(設計上の制約) |
| ストリーミング遅延 | N/A | ≈ 0ms |
Moonshine Voice v2 を簡単に紹介
Moonshine Voiceは、Useful Sensors社が開発したオープンソースの音声認識ツールキットです。開発者のPete WardenはGoogleのTensorFlowチーム出身で、「TinyML(超小型デバイス向けML)」の提唱者として知られています。
特徴をざっくりまとめると:
- CPU専用設計: GPU不要。OnnxRuntimeで動くため、PyTorchも不要
- ストリーミング処理: 音声を100msずつ逐次処理。話している最中にテキストが出続ける
- 統合ツールキット: 音声認識だけでなく、VAD(音声区間検出)・話者識別・音声コマンド認識が一体化
- エッジデバイス対応: Raspberry Pi 5でも実用的に動作
Whisperが「録音が終わってからまとめて処理する」設計なのに対して、Moonshineは「話しながらリアルタイムで処理する」設計です。この違いが、後の検証結果を理解するうえで重要になります。
検証環境と条件
| 項目 | 内容 |
|---|---|
| GPU PC | RTX 2000 Ada 16GB / Core i7-13700 / 32GB RAM |
| テスト音声 | ベケット引用(10秒)+ 二都物語冒頭(44秒) |
| 比較モデル | Moonshine 2種 + Whisper 4種 + Faster-Whisper 5種 = 計11モデル |
| 元データ | Teams会議の録画データから音声を抽出 |
今回のきっかけは、社内のTeams会議録画の文字起こしを効率化したかったことです。録画データから音声を抽出し、各モデルに処理させて比較しました。
つまりバッチ処理(ファイル処理)の検証です。Moonshineが本領を発揮するリアルタイム処理は今回の検証対象外で、これは次回にまわします。
実測結果: レイテンシ
44秒の音声を処理した時間です。
| モデル | 処理時間 | 備考 |
|---|---|---|
| Faster-Whisper tiny | 507ms | 最速。44秒音声を0.5秒で処理 |
| Faster-Whisper base | 690ms | |
| Faster-Whisper small | 978ms | 速度と精度のバランスが良い |
| Whisper tiny | 980ms | |
| Whisper base | 1,213ms | |
| Faster-Whisper medium | 1,905ms | |
| Whisper small | 2,331ms | |
| Faster-Whisper large-v3 | 3,004ms | |
| Whisper large-v3 | 5,510ms | |
| Moonshine medium | 89,512ms | ストリーミング処理のため |
Faster-Whisper tinyが44秒の音声を0.5秒で処理しています。速い。
一方でMoonshineは89秒、音声の約2倍の時間がかかっています。「100倍速い」という話と正反対に見えますよね。
なぜMoonshineはこんなに遅いのか
これは遅いのではなく、処理の仕方が違うからです。
Moonshineは音声を100msずつ逐次処理するストリーミングエンジンです。44秒のファイルを渡しても、内部的にはリアルタイム再生と同じペースで処理します。バッチ処理で一括変換する機能がそもそもありません。
逆にマイクからの音声入力なら、話している最中にテキストが出続けます。公式のストリーミングレイテンシ(最後の音声チャンク→テキスト出力)は≈0msとされていて、音声送信が完了した瞬間にはテキストが完成しているそうです。
ここが「100倍速い」の意味で、Whisper Large v3のストリーミングレイテンシ(11,286ms)と比較した数字です。ファイルのバッチ処理で100倍速いわけではありません。
実測結果: 精度
WER(Word Error Rate / 単語誤り率)です。低いほど良いです。
| モデル | WER | コメント |
|---|---|---|
| Faster-Whisper large-v3 | 0.00% | 完全一致 |
| Whisper large-v3 | 0.84% | ほぼ完璧 |
| Whisper tiny | 1.68% | この精度でこの速さ |
| Faster-Whisper tiny | 1.68% | 同上 |
| Whisper small | 2.52% | |
| Faster-Whisper small | 2.52% | |
| Faster-Whisper medium | 3.36% | |
| Whisper base | 5.88% | |
| Faster-Whisper base | 12.61% | |
| Moonshine medium | 13.45% | テスト条件の差あり |
Whisper tinyでWER 1.68%は素直にすごいと思いました。会議メモの文字起こし程度ならtinyで十分です。
Moonshineの13.45%は高めですが、公式ベンチマーク(LibriSpeech test-clean)では6.65%と報告されています。今回のテスト音声はTeams録画からの抽出で録音環境がクリーンではないため、Moonshineにとっては不利な条件だったと思います。
実測結果: メモリ使用量
| モデル | モデルサイズ | RAM増分 |
|---|---|---|
| Faster-Whisper tiny | 40MB | +48MB |
| Moonshine base | 58MB | +605MB |
| Whisper tiny | 75MB | +220MB |
| Moonshine medium | 245MB | +586MB |
| Faster-Whisper large-v3 | 1.6GB | +7MB |
| Whisper large-v3 | 3.1GB | +3,934MB |
Faster-Whisper large-v3のRAM増分が+7MBというのが目を引きます。バックエンドのCTranslate2がモデルをVRAM側にほぼ全乗せするため、CPU側のメモリ消費が極小になっています。
Moonshineはモデルサイズに比べてRAM消費が大きめですが、これはVAD・話者識別などの統合機能をまとめてロードしているためです。
用途別の選び方
今回の検証結果をもとに、自分なりの使い分けをまとめます。
あなたの用途は?
│
├── 録音ファイルの文字起こし
│ ├── GPU使える?
│ │ ├── Yes → 速度重視: Faster-Whisper tiny
│ │ │ バランス: Faster-Whisper small(おすすめ)
│ │ │ 精度重視: Faster-Whisper large-v3
│ │ └── No → Faster-Whisper tiny (CPU, int8)
│ └── 日本語で商用利用? → Whisper large-v3
│
├── リアルタイム音声入力(マイク)
│ └── Moonshine(次回検証予定)
│
└── 完全オフライン
└── どちらもOK(初回DL後はネット不要)
自分の環境(RTX 2000 Ada搭載のGPU PC)でTeams録画の文字起こしをするなら、Faster-Whisper smallがバランス良さそうだな、というのが今の感想です。
日本語で使うには
Whisper
- 全モデルで日本語対応(
language="ja"を指定) - MITライセンス → 商用利用OK
Moonshine Voice
moonshine-tiny-jaという日本語特化モデルがあります- 英語モデルはMITライセンス
- 日本語モデルは Moonshine Community License(年間収益$1M未満なら商用利用可能)
「Moonshineの日本語は商用不可」と書いている記事が多いですが、正確には年間収益$1M未満なら使えます。個人開発やスタートアップなら問題ありません。
まとめと次回予告
今回は、Moonshine Voice v2とWhisper/Faster-Whisperを11モデル実測して比較してみました。
この記事のポイント
- 「100倍速い」はストリーミングレイテンシの話。バッチ処理ではFaster-Whisperが圧倒的
- Teams録画の文字起こし(バッチ処理)にはFaster-Whisper smallがバランス良し
- Moonshineはリアルタイム向けの設計。バッチ処理での評価はフェアではない
- 日本語のMoonshine Community Licenseは年収$1M未満なら商用利用可
次回 — リアルタイム文字起こしで再検証
今回はTeams会議の録画データ(ファイル)での比較だったので、正直に言うとMoonshineにとっては不利な土俵でした。X.comで「期待ほどではない」という声が多いのも、多くの人がバッチ処理で評価しているからだと思います。
ただ、Moonshineの本来の強みはリアルタイム音声入力です。次回はマイクからのリアルタイム文字起こしで改めて比較してみる予定です。
- 実際にマイクで話しながら、テキストが出るまでの体感レイテンシ
- VAD(音声区間検出)の精度
- 日本語モデル(moonshine-tiny-ja)のリアルタイム精度
Moonshineが本当にリアルタイムで強いのか、次回検証してみます。

コメント