クイックスタート - microsoft/VibeVoice

VibeVoiceの概要とモデル構成

VibeVoiceは、連続音声トークナイザー（AcousticおよびSemantic）を7.5 Hzの超低フレームレートで動作させ、音声忠実度を保ちながら長シーケンス処理の計算効率を向上させています。Large Language Model (LLM) による文脈理解と、Diffusion Headによる高忠実度音響生成を組み合わせたアーキテクチャを採用しています (README.md:45-62)。

モデル一覧

モデル	パラメータ数	主な用途	クイックアクセス
VibeVoice-ASR-7B	7B	長時間音声認識（最大60分）	Playground
VibeVoice-TTS-1.5B	1.5B	長時間マルチスピーカーTTS（最大90分）	Disabled
VibeVoice-Realtime-0.5B	0.5B	リアルタイムストリーミングTTS	Colab

各モデルの特徴

VibeVoice-ASRは、60分間の長時間音声を一括処理し、話者、タイムスタンプ (When)、内容を含む構造化された転写結果を生成します。カスタムホットワード機能により、専門用語や固有名詞の認識精度を向上させることが可能です (README.md:64-81)。

VibeVoice-TTSは、最大90分の長時間音声を一括生成し、最大4人の異なる話者をサポートします。会話の自然なターンテイキングと感情表現を含む表現力豊かな音声合成が可能です。

VibeVoice-Realtimeは、ストリーミングテキスト入力に対応した軽量リアルタイムTTSモデルです。約300ミリ秒の初回音声レイテンシを実現し、約10分間の長時間音声生成に対応します。

正在加载图表渲染器...

VibeVoice-Realtime (ストリーミングTTS) のクイックスタート

VibeVoice-Realtimeは、Google Colab環境で最も簡単に試すことができます。T4 GPU環境を使用することで、約300ミリ秒の初回音声レイテンシを実現します。

環境要件

GPU: T4 GPU（推奨）
Python: 3.10以上
依存パッケージ: streamingtts エクストラ依存関係

インストール手順

Colabノートブックでは、以下の手順で環境を構築します (demo/vibevoice_realtime_colab.ipynb:20-77)：

GPU確認: T4 GPUが利用可能かチェック
リポジトリクローン: VibeVoiceリポジトリをクローン
依存関係インストール: uv pip で streamingtts エクストラをインストール
モデルダウンロード: Hugging Faceからモデルをダウンロード

python
1# T4 GPU確認
2import torch
3if torch.cuda.is_available() and "T4" in torch.cuda.get_device_name(0):
4    print("✅ T4 GPU detected")
5
6# リポジトリクローン
7![ -d /content/VibeVoice ] || git clone --quiet --branch main --depth 1 https://github.com/microsoft/VibeVoice.git /content/VibeVoice
8
9# 依存関係インストール
10!uv pip --quiet install --system -e /content/VibeVoice[streamingtts]
11
12# モデルダウンロード
13from huggingface_hub import snapshot_download
14snapshot_download("microsoft/VibeVoice-Realtime-0.5B", local_dir="/content/models/VibeVoice-Realtime-0.5B")

デモサーバーの起動

環境構築完了後、以下のコマンドでデモサーバーを起動します (demo/vibevoice_realtime_colab.ipynb:128-186)：

bash
1python /content/VibeVoice/demo/vibevoice_realtime_demo.py --model_path /content/models/VibeVoice-Realtime-0.5B --port 8000

サーバー起動後、cloudflaredトンネルを使用して公開URLを取得します：

bash
1./cloudflared tunnel --url http://localhost:8000 --no-autoupdate

期待される出力:

Uvicorn running on - サーバー起動成功
✅ Public URL: https://xxx.trycloudflare.com - 公開URL取得成功

最短実行パス（推奨）

Colabノートブックを開く
ランタイムタイプを「T4 GPU」に設定
すべてのセルを順番に実行
公開URLにアクセスしてデモを試用

VibeVoice-ASR (長時間音声認識) のクイックスタート

VibeVoice-ASRは、最大60分の長時間音声を一括処理できる統合音声認識モデルです。話者分離、タイムスタンプ付与、およびカスタムホットワード機能を提供します (README.md:67-80)。

主な機能

60分一括処理: 64Kトークン長以内で最大60分の連続音声を処理
構造化出力: 話者、タイムスタンプ (When)、内容を含む転写結果
カスタムホットワード: 専門用語や固有名詞の認識精度向上
多言語サポート: 50以上の言語に対応

クイックアクセス方法

Playground（推奨）: https://aka.ms/vibevoice-asr でブラウザ上ですぐに試用可能

Hugging Face Transformers統合: VibeVoice-ASRはTransformers v5.3.0以降で統合されています (README.md:25-31)。

python
1# Transformersを使用した推論例（需要確認：具体的なコードは提供されたソースに含まれていません）
2from transformers import AutoModelForCausalLM, AutoProcessor
3
4model = AutoModelForCausalLM.from_pretrained("microsoft/VibeVoice-ASR")
5processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")

vLLM推論サポート

高速推論のためにvLLMがサポートされています。詳細は vllm-asr ドキュメントを参照してください (README.md:25-31)。

トラブルシューティングと補足情報

Hugging Faceダウンロード問題の解決

モデルダウンロードが1分を超えて停止する場合、Hugging Faceへのログインが必要な可能性があります (demo/vibevoice_realtime_colab.ipynb:80-126)。

python
1from huggingface_hub import login, snapshot_download
2login()  # Hugging Faceトークンを入力
3snapshot_download("microsoft/VibeVoice-Realtime-0.5B", local_dir="/content/models/VibeVoice-Realtime-0.5B")

実験的音声の追加

VibeVoice-Realtimeでは、9言語（DE, FR, IT, JP, KR, NL, PL, PT, ES）の多言語音声と11種類の英語スタイル音声を追加で利用できます (demo/vibevoice_realtime_colab.ipynb:80-126)。

bash
1bash /content/VibeVoice/demo/download_experimental_voices.sh

リスクと制限事項

VibeVoiceは研究開発目的のみを意図しています。商用や実運用環境での使用は、さらなるテストと開発を行わずに推奨されません (README.md:191-199)。

主なリスク:

バイアスと不正確さ: ベースモデル（Qwen2.5 1.5B）のバイアスやエラーを継承
ディープフェイクリスク: 高品質な合成音声が偽装や詐欺に悪用される可能性
法的遵守: 生成コンテンツの使用は適用法令を遵守する責任がある

推奨プラクティス:

AI生成コンテンツを共有する際は、AI使用を開示する
転写結果の信頼性を確認する
コンテンツの正確性をチェックする

次のステップ

VibeVoiceの基本動作を確認した後は、以下のドキュメントを参照して詳細な使用方法を学習してください：

VibeVoice-ASR詳細: docs/vibevoice-asr.md - 長時間音声認識の詳細設定とAPI使用方法
VibeVoice-Realtime詳細: docs/vibevoice-realtime-0.5b.md - リアルタイムTTSの設定とカスタマイズ
ファインチューニング: finetuning-asr/README.md - ASRモデルのファインチューニング手順
技術レポート: ASR Report | TTS Report - モデルアーキテクチャと評価結果