VibeVoice

先進的多說話者文本轉語音 AI，可生成長達 90 分鐘的自然對話音頻。VibeVoice 創建播客品質的對話，最多 4 個不同的說話者，非常適合有聲書、電子學習和長篇內容。

免費試用 VibeVoice 在 GitHub 上查看

最大音頻長度: 90 分鐘
支持的說話者: 最多 4 個
上下文窗口: 64K 令牌
許可證: MIT 開源

體驗 VibeVoice 多說話者演示

試試 VibeVoice 的先進對話 AI 並生成自然的多說話者對話。創建播客風格的對話、有聲書旁白和引人入勝的教育內容，具有真實的輪流和情感表達。

VibeVoice 核心功能

革命性的長篇對話語音合成

VibeVoice 改變了我們創建音頻內容的方式，具有前所未有的多說話者功能、自然對話流和擴展的生成長度，適用於專業播客製作和沉浸式故事講述。

擴展的 90 分鐘生成: VibeVoice 獨特地在單個會話中使用其 64K 上下文窗口生成長達 90 分鐘的連續高品質語音。這一突破性功能使 VibeVoice 非常適合完整播客劇集、完整有聲書章節、綜合培訓模塊和長篇訪談，無中斷或品質下降。
自然的多說話者對話: 使用 VibeVoice 的先進輪流系統創建具有最多 4 個不同說話者的真實對話。每個 VibeVoice 說話者在整個對話中保持一致的語音特性、個性和說話風格。非常適合小組討論、訪談、教育對話、客戶服務模擬和多角色戲劇故事講述。
自發的情感表達: VibeVoice 捕捉真實的情感細微差別，包括笑聲、興奮、關注和微妙的情緒變化。該模型生成自發的情感反應，感覺自然而無腳本，創建與聽眾產生共鳴的引人入勝的內容。VibeVoice 甚至在對話中處理自發唱歌和音樂元素，用於創意播客製作。
跨語言語音合成: VibeVoice 在英語和中文中表現出色，具有原生品質的發音和語調。在單個對話中無縫切換語言，同時保持說話者身份。這使 VibeVoice 非常適合雙語內容、語言學習材料、國際商務通信和全球播客受眾。
播客品質的音頻製作: VibeVoice 生成適合專業播客分發的廣播品質音頻。該系統在長時間會話中保持一致的音頻特性、自然韻律和適當的節奏。VibeVoice 優雅地處理背景氛圍，並生成適合直接發布或最少後期製作編輯的清晰語音。
高效的混合架構: 基於以 7.5 Hz 運行的尖端連續語音令牌化器與下一令牌擴散解碼相結合而構建，VibeVoice 在保持計算效率的同時實現卓越品質。混合架構使 VibeVoice 能夠有效處理長序列，使 90 分鐘的生成在研究人員和內容創作者的可訪問硬件上實用。

VibeVoice 常見問題

什麼是 VibeVoice，它有什麼獨特之處？: VibeVoice 是一個開源文本轉語音框架，專門為長篇、多說話者對話音頻而設計。與傳統 TTS 系統不同，VibeVoice 可以在單個會話中生成長達 90 分鐘的自然對話，最多 4 個說話者。VibeVoice 擅長在整個擴展對話中保持說話者一致性、自然輪流和情感表達，使其非常適合播客、有聲書和教育內容。
VibeVoice 在一個會話中可以生成多長的音頻？: VibeVoice 可以使用 1.5B 參數模型的 64K 上下文窗口生成長達 90 分鐘的連續語音。7B 參數 VibeVoice 模型支持長達 45 分鐘的高品質音頻生成。這種擴展功能使 VibeVoice 非常適合完整播客劇集、完整有聲書章節、綜合培訓會話和長篇訪談，無需分段。
VibeVoice 可以同時處理多少個說話者？: VibeVoice 在單個對話中支持最多 4 個不同的說話者。每個 VibeVoice 說話者在整個會話中保持一致的語音特性、個性特徵和說話模式。這種多說話者功能使 VibeVoice 非常適合小組討論、訪談、教育對話、戲劇故事講述和任何需要多個參與者之間自然對話動態的內容。
VibeVoice 支持哪些語言？: VibeVoice 主要針對英語和中文進行訓練，在兩種語言中提供原生品質的語音。VibeVoice 可以在單個對話中無縫切換英語和中文，同時保持說話者身份。其他語言可能會產生實驗性結果。為了獲得最佳品質和穩定性，請將 VibeVoice 用於英語或中文內容，進行專業播客製作和有聲書旁白。
VibeVoice 可以用於播客製作嗎？: 當然可以！VibeVoice 專門設計為播客語音生成器。它創建具有自然輪流、適當節奏和情感表達的廣播品質多說話者對話。VibeVoice 輕鬆處理長篇內容，使其非常適合訪談播客、小組討論、教育系列和故事講述播客。輸出品質適合直接發布，最少後期製作。
VibeVoice 是開源且免費使用嗎？: 是的！VibeVoice 在 MIT 開源許可證下發布。您可以在 GitHub 上訪問完整的 VibeVoice 代碼庫，在自己的硬件上本地部署，並將其用於個人和商業項目。VibeVoice 可通過 Hugging Face 輕鬆集成，您可以在部署自己的實例之前在線試用 VibeVoice 演示。
VibeVoice 需要什麼硬件？: VibeVoice 提供兩種模型大小，具有不同的硬件要求。1.5B 參數 VibeVoice 模型需要 7-10GB VRAM，可以生成長達 90 分鐘的音頻。7B 參數 VibeVoice 模型需要 18-24GB VRAM，支持長達 45 分鐘的更高品質生成。VibeVoice 模型都可以在消費級 GPU 上運行，使專業多說話者合成對個人創作者和小型團隊可訪問。