VibeVoice

最大90分間の自然な対話型オーディオを生成する高度なマルチスピーカーテキスト音声変換AIです。VibeVoiceは最大4人の異なるスピーカーでポッドキャスト品質の対話を作成し、オーディオブック、eラーニング、長編コンテンツに最適です。

最大オーディオ長
90分
対応スピーカー
最大4人
コンテキストウィンドウ
64Kトークン
ライセンス
MIT オープンソース

VibeVoice マルチスピーカーデモを体験

VibeVoiceの高度な対話型AIを試して、自然なマルチスピーカー対話を生成してください。ポッドキャストスタイルの対話、オーディオブックナレーション、本物のターンテイキングと感情表現を備えた魅力的な教育コンテンツを作成します。

VibeVoice コア機能

革新的な長編対話型音声合成

VibeVoiceは前例のないマルチスピーカー機能、自然な対話フロー、拡張された生成長を備えた音声コンテンツ制作方法を変革し、プロフェッショナルなポッドキャスト制作と没入型ストーリーテリング向けに設計されています。

拡張された90分生成

VibeVoiceは64Kコンテキストウィンドウを使用して、単一セッションで最大90分の連続高品質音声をユニークに生成します。この革新的な機能により、VibeVoiceは完全なポッドキャストエピソード、完全なオーディオブック章、包括的なトレーニングモジュール、長編インタビューに最適で、中断や品質低下がありません。

自然なマルチスピーカー対話

VibeVoiceの高度なターンテイキングシステムを使用して、最大4人の異なるスピーカーで本物の対話を作成します。各VibeVoiceスピーカーは対話全体を通じて一貫した音声特性、個性、話し方を維持します。パネルディスカッション、インタビュー、教育対話、カスタマーサービスシミュレーション、複数キャラクターのドラマティックストーリーテリングに最適です。

自発的な感情表現

VibeVoiceは笑い、興奮、懸念、微妙な気分の変化を含む本物の感情的ニュアンスを捉えます。モデルは自然でスクリプトされていない感じの自発的な感情反応を生成し、リスナーと共鳴する魅力的なコンテンツを作成します。VibeVoiceは創意的なポッドキャスト制作のために対話内での自発的な歌唱と音楽要素も処理します。

クロスリンガル音声合成

VibeVoiceは英語と中国語の両方でネイティブ品質の発音とイントネーションで優れています。スピーカーアイデンティティを維持しながら、単一の対話内で言語をシームレスに切り替えます。これにより、VibeVoiceはバイリンガルコンテンツ、言語学習教材、国際ビジネスコミュニケーション、グローバルポッドキャストオーディエンスに最適です。

ポッドキャスト品質のオーディオ制作

VibeVoiceはプロフェッショナルなポッドキャスト配信に適したブロードキャスト品質のオーディオを生成します。システムは長いセッション全体で一貫したオーディオ特性、自然な韻律、適切なペースを維持します。VibeVoiceは背景の雰囲気を優雅に処理し、直接公開または最小限の後処理編集に最適なクリーンな音声を生成します。

効率的なハイブリッドアーキテクチャ

7.5 Hzで動作する最先端の連続音声トークナイザーと次トークン拡散デコーディングの組み合わせに基づいて構築されたVibeVoiceは、計算効率を維持しながら優れた品質を実現します。ハイブリッドアーキテクチャにより、VibeVoiceは長いシーケンスを効果的に処理でき、研究者とコンテンツクリエイター向けのアクセス可能なハードウェアで90分生成を実用的にします。

VibeVoice よくある質問

VibeVoiceとは何ですか、何が独特ですか?
VibeVoiceは長編、マルチスピーカー対話型オーディオ向けに特別に設計されたオープンソーステキスト音声変換フレームワークです。従来のTTSシステムとは異なり、VibeVoiceは単一セッションで最大4人のスピーカーで最大90分の自然な対話を生成できます。VibeVoiceは拡張された対話全体でスピーカー一貫性、自然なターンテイキング、感情表現を維持するのに優れており、ポッドキャスト、オーディオブック、教育コンテンツに最適です。
VibeVoiceは1セッションでどのくらい長いオーディオを生成できますか?
VibeVoiceは1.5Bパラメータモデルの64Kコンテキストウィンドウで最大90分の連続音声を生成できます。7BパラメータVibeVoiceモデルは最大45分の高品質オーディオ生成をサポートします。この拡張機能により、VibeVoiceは完全なポッドキャストエピソード、完全なオーディオブック章、包括的なトレーニングセッション、長編インタビューに最適で、分割が不要です。
VibeVoiceは同時に何人のスピーカーを処理できますか?
VibeVoiceは単一の対話で最大4人の異なるスピーカーをサポートします。各VibeVoiceスピーカーはセッション全体を通じて一貫した音声特性、個性特性、話し方パターンを維持します。このマルチスピーカー機能により、VibeVoiceはパネルディスカッション、インタビュー、教育対話、ドラマティックストーリーテリング、複数参加者間の自然な対話ダイナミクスが必要なコンテンツに最適です。
VibeVoiceはどの言語をサポートしていますか?
VibeVoiceは主に英語と中国語で訓練されており、両言語でネイティブ品質の音声を提供します。VibeVoiceはスピーカーアイデンティティを維持しながら、単一の対話内で英語と中国語をシームレスに切り替えることができます。他の言語は実験的な結果を生成する可能性があります。最高の品質と安定性のために、プロフェッショナルなポッドキャスト制作とオーディオブックナレーション向けに英語または中国語コンテンツでVibeVoiceを使用してください。
VibeVoiceはポッドキャスト制作に使用できますか?
もちろんです!VibeVoiceはポッドキャストボイスジェネレーターとして特別に設計されています。自然なターンテイキング、適切なペース、感情表現を備えたブロードキャスト品質のマルチスピーカー対話を作成します。VibeVoiceは長編コンテンツを簡単に処理し、インタビューポッドキャスト、パネルディスカッション、教育シリーズ、ストーリーテリングポッドキャストに最適です。出力品質は最小限の後処理で直接公開に適しています。
VibeVoiceはオープンソースで無料で使用できますか?
はい!VibeVoiceはMITオープンソースライセンスの下でリリースされています。GitHubで完全なVibeVoiceコードベースにアクセスし、自分のハードウェアにローカルにデプロイし、個人および商用プロジェクトの両方に使用できます。VibeVoiceはHugging Faceを通じて簡単な統合のために利用可能で、自分のインスタンスをデプロイする前にオンラインでVibeVoiceデモを試すことができます。
VibeVoiceにはどのようなハードウェアが必要ですか?
VibeVoiceは異なるハードウェア要件を持つ2つのモデルサイズを提供します。1.5BパラメータVibeVoiceモデルは7~10GB VRAMが必要で、最大90分のオーディオを生成できます。7BパラメータVibeVoiceモデルは18~24GB VRAMが必要で、最大45分のより高品質な生成をサポートします。VibeVoiceモデルはどちらもコンシューマーグレードのGPUで実行でき、プロフェッショナルなマルチスピーカー合成を個人クリエイターと小規模チームがアクセスできるようにします。