クイックスタート
関連ソースファイル
このページの内容は以下のソースファイルに基づいて生成されています:
- README.md
- demo/vibevoice_realtime_colab.ipynb
- demo/vibevoice_asr_gradio_demo.py
- pyproject.toml
- demo/vibevoice_asr_inference_from_file.py
- demo/vibevoice_realtime_demo.py
- demo/realtime_model_inference_from_file.py
- vibevoice/processor/vibevoice_asr_processor.py
- vibevoice/processor/audio_utils.py
- vibevoice/modular/modeling_vibevoice_asr.py
VibeVoiceは、Microsoftが開発するオープンソースの音声AIモデルファミリーです。Text-to-Speech (TTS) と Automatic Speech Recognition (ASR) の両機能を統合し、長時間音声処理やリアルタイムストリーミングに対応しています。本セクションでは、VibeVoiceの概要と各モデルのクイックスタート手順を説明します。
VibeVoiceの概要とモデル構成
VibeVoiceは、連続音声トークナイザー(AcousticおよびSemantic)を7.5 Hzの超低フレームレートで動作させ、音声忠実度を保ちながら長シーケンス処理の計算効率を向上させています。Large Language Model (LLM) による文脈理解と、Diffusion Headによる高忠実度音響生成を組み合わせたアーキテクチャを採用しています (README.md:45-62)。
モデル一覧
| モデル | パラメータ数 | 主な用途 | クイックアクセス |
|---|---|---|---|
| VibeVoice-ASR-7B | 7B | 長時間音声認識(最大60分) | Playground |
| VibeVoice-TTS-1.5B | 1.5B | 長時間マルチスピーカーTTS(最大90分) | Disabled |
| VibeVoice-Realtime-0.5B | 0.5B | リアルタイムストリーミングTTS | Colab |
各モデルの特徴
VibeVoice-ASRは、60分間の長時間音声を一括処理し、話者、タイムスタンプ (When)、内容 を含む構造化された転写結果を生成します。カスタムホットワード機能により、専門用語や固有名詞の認識精度を向上させることが可能です (README.md:64-81)。
VibeVoice-TTSは、最大90分の長時間音声を一括生成し、最大4人の異なる話者をサポートします。会話の自然なターンテイキングと感情表現を含む表現力豊かな音声合成が可能です。
VibeVoice-Realtimeは、ストリーミングテキスト入力に対応した軽量リアルタイムTTSモデルです。約300ミリ秒の初回音声レイテンシを実現し、約10分間の長時間音声生成に対応します。
正在加载图表渲染器...
VibeVoice-Realtime (ストリーミングTTS) のクイックスタート
VibeVoice-Realtimeは、Google Colab環境で最も簡単に試すことができます。T4 GPU環境を使用することで、約300ミリ秒の初回音声レイテンシを実現します。
環境要件
- GPU: T4 GPU(推奨)
- Python: 3.10以上
- 依存パッケージ:
streamingttsエクストラ依存関係
インストール手順
Colabノートブックでは、以下の手順で環境を構築します (demo/vibevoice_realtime_colab.ipynb:20-77):
- GPU確認: T4 GPUが利用可能かチェック
- リポジトリクローン: VibeVoiceリポジトリをクローン
- 依存関係インストール:
uv pipでstreamingttsエクストラをインストール - モデルダウンロード: Hugging Faceからモデルをダウンロード
python1# T4 GPU確認 2import torch 3if torch.cuda.is_available() and "T4" in torch.cuda.get_device_name(0): 4 print("✅ T4 GPU detected") 5 6# リポジトリクローン 7![ -d /content/VibeVoice ] || git clone --quiet --branch main --depth 1 https://github.com/microsoft/VibeVoice.git /content/VibeVoice 8 9# 依存関係インストール 10!uv pip --quiet install --system -e /content/VibeVoice[streamingtts] 11 12# モデルダウンロード 13from huggingface_hub import snapshot_download 14snapshot_download("microsoft/VibeVoice-Realtime-0.5B", local_dir="/content/models/VibeVoice-Realtime-0.5B")
デモサーバーの起動
環境構築完了後、以下のコマンドでデモサーバーを起動します (demo/vibevoice_realtime_colab.ipynb:128-186):
bash1python /content/VibeVoice/demo/vibevoice_realtime_demo.py --model_path /content/models/VibeVoice-Realtime-0.5B --port 8000
サーバー起動後、cloudflaredトンネルを使用して公開URLを取得します:
bash1./cloudflared tunnel --url http://localhost:8000 --no-autoupdate
期待される出力:
Uvicorn running on- サーバー起動成功✅ Public URL: https://xxx.trycloudflare.com- 公開URL取得成功
最短実行パス(推奨)
- Colabノートブックを開く
- ランタイムタイプを「T4 GPU」に設定
- すべてのセルを順番に実行
- 公開URLにアクセスしてデモを試用
VibeVoice-ASR (長時間音声認識) のクイックスタート
VibeVoice-ASRは、最大60分の長時間音声を一括処理できる統合音声認識モデルです。話者分離、タイムスタンプ付与、およびカスタムホットワード機能を提供します (README.md:67-80)。
主な機能
- 60分一括処理: 64Kトークン長以内で最大60分の連続音声を処理
- 構造化出力: 話者、タイムスタンプ (When)、内容 を含む転写結果
- カスタムホットワード: 専門用語や固有名詞の認識精度向上
- 多言語サポート: 50以上の言語に対応
クイックアクセス方法
Playground(推奨): https://aka.ms/vibevoice-asr でブラウザ上ですぐに試用可能
Hugging Face Transformers統合: VibeVoice-ASRはTransformers v5.3.0以降で統合されています (README.md:25-31)。
python1# Transformersを使用した推論例(需要確認:具体的なコードは提供されたソースに含まれていません) 2from transformers import AutoModelForCausalLM, AutoProcessor 3 4model = AutoModelForCausalLM.from_pretrained("microsoft/VibeVoice-ASR") 5processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")
vLLM推論サポート
高速推論のためにvLLMがサポートされています。詳細は vllm-asr ドキュメントを参照してください (README.md:25-31)。
トラブルシューティングと補足情報
Hugging Faceダウンロード問題の解決
モデルダウンロードが1分を超えて停止する場合、Hugging Faceへのログインが必要な可能性があります (demo/vibevoice_realtime_colab.ipynb:80-126)。
python1from huggingface_hub import login, snapshot_download 2login() # Hugging Faceトークンを入力 3snapshot_download("microsoft/VibeVoice-Realtime-0.5B", local_dir="/content/models/VibeVoice-Realtime-0.5B")
実験的音声の追加
VibeVoice-Realtimeでは、9言語(DE, FR, IT, JP, KR, NL, PL, PT, ES)の多言語音声と11種類の英語スタイル音声を追加で利用できます (demo/vibevoice_realtime_colab.ipynb:80-126)。
bash1bash /content/VibeVoice/demo/download_experimental_voices.sh
リスクと制限事項
VibeVoiceは研究開発目的のみを意図しています。商用や実運用環境での使用は、さらなるテストと開発を行わずに推奨されません (README.md:191-199)。
主なリスク:
- バイアスと不正確さ: ベースモデル(Qwen2.5 1.5B)のバイアスやエラーを継承
- ディープフェイクリスク: 高品質な合成音声が偽装や詐欺に悪用される可能性
- 法的遵守: 生成コンテンツの使用は適用法令を遵守する責任がある
推奨プラクティス:
- AI生成コンテンツを共有する際は、AI使用を開示する
- 転写結果の信頼性を確認する
- コンテンツの正確性をチェックする
次のステップ
VibeVoiceの基本動作を確認した後は、以下のドキュメントを参照して詳細な使用方法を学習してください:
- VibeVoice-ASR詳細: docs/vibevoice-asr.md - 長時間音声認識の詳細設定とAPI使用方法
- VibeVoice-Realtime詳細: docs/vibevoice-realtime-0.5b.md - リアルタイムTTSの設定とカスタマイズ
- ファインチューニング: finetuning-asr/README.md - ASRモデルのファインチューニング手順
- 技術レポート: ASR Report | TTS Report - モデルアーキテクチャと評価結果
