VibeVoice
先進的多說話者文本轉語音 AI,可生成長達 90 分鐘的自然對話音頻。VibeVoice 創建播客品質的對話,最多 4 個不同的說話者,非常適合有聲書、電子學習和長篇內容。
- 最大音頻長度
- 90 分鐘
- 支持的說話者
- 最多 4 個
- 上下文窗口
- 64K 令牌
- 許可證
- MIT 開源
體驗 VibeVoice 多說話者演示
試試 VibeVoice 的先進對話 AI 並生成自然的多說話者對話。創建播客風格的對話、有聲書旁白和引人入勝的教育內容,具有真實的輪流和情感表達。
VibeVoice 核心功能
革命性的長篇對話語音合成
VibeVoice 改變了我們創建音頻內容的方式,具有前所未有的多說話者功能、自然對話流和擴展的生成長度,適用於專業播客製作和沉浸式故事講述。
- 擴展的 90 分鐘生成
VibeVoice 獨特地在單個會話中使用其 64K 上下文窗口生成長達 90 分鐘的連續高品質語音。這一突破性功能使 VibeVoice 非常適合完整播客劇集、完整有聲書章節、綜合培訓模塊和長篇訪談,無中斷或品質下降。
- 自然的多說話者對話
使用 VibeVoice 的先進輪流系統創建具有最多 4 個不同說話者的真實對話。每個 VibeVoice 說話者在整個對話中保持一致的語音特性、個性和說話風格。非常適合小組討論、訪談、教育對話、客戶服務模擬和多角色戲劇故事講述。
- 自發的情感表達
VibeVoice 捕捉真實的情感細微差別,包括笑聲、興奮、關注和微妙的情緒變化。該模型生成自發的情感反應,感覺自然而無腳本,創建與聽眾產生共鳴的引人入勝的內容。VibeVoice 甚至在對話中處理自發唱歌和音樂元素,用於創意播客製作。
- 跨語言語音合成
VibeVoice 在英語和中文中表現出色,具有原生品質的發音和語調。在單個對話中無縫切換語言,同時保持說話者身份。這使 VibeVoice 非常適合雙語內容、語言學習材料、國際商務通信和全球播客受眾。
- 播客品質的音頻製作
VibeVoice 生成適合專業播客分發的廣播品質音頻。該系統在長時間會話中保持一致的音頻特性、自然韻律和適當的節奏。VibeVoice 優雅地處理背景氛圍,並生成適合直接發布或最少後期製作編輯的清晰語音。
- 高效的混合架構
基於以 7.5 Hz 運行的尖端連續語音令牌化器與下一令牌擴散解碼相結合而構建,VibeVoice 在保持計算效率的同時實現卓越品質。混合架構使 VibeVoice 能夠有效處理長序列,使 90 分鐘的生成在研究人員和內容創作者的可訪問硬件上實用。
VibeVoice 常見問題
- 什麼是 VibeVoice,它有什麼獨特之處?
- VibeVoice 是一個開源文本轉語音框架,專門為長篇、多說話者對話音頻而設計。與傳統 TTS 系統不同,VibeVoice 可以在單個會話中生成長達 90 分鐘的自然對話,最多 4 個說話者。VibeVoice 擅長在整個擴展對話中保持說話者一致性、自然輪流和情感表達,使其非常適合播客、有聲書和教育內容。
- VibeVoice 在一個會話中可以生成多長的音頻?
- VibeVoice 可以使用 1.5B 參數模型的 64K 上下文窗口生成長達 90 分鐘的連續語音。7B 參數 VibeVoice 模型支持長達 45 分鐘的高品質音頻生成。這種擴展功能使 VibeVoice 非常適合完整播客劇集、完整有聲書章節、綜合培訓會話和長篇訪談,無需分段。
- VibeVoice 可以同時處理多少個說話者?
- VibeVoice 在單個對話中支持最多 4 個不同的說話者。每個 VibeVoice 說話者在整個會話中保持一致的語音特性、個性特徵和說話模式。這種多說話者功能使 VibeVoice 非常適合小組討論、訪談、教育對話、戲劇故事講述和任何需要多個參與者之間自然對話動態的內容。
- VibeVoice 支持哪些語言?
- VibeVoice 主要針對英語和中文進行訓練,在兩種語言中提供原生品質的語音。VibeVoice 可以在單個對話中無縫切換英語和中文,同時保持說話者身份。其他語言可能會產生實驗性結果。為了獲得最佳品質和穩定性,請將 VibeVoice 用於英語或中文內容,進行專業播客製作和有聲書旁白。
- VibeVoice 可以用於播客製作嗎?
- 當然可以!VibeVoice 專門設計為播客語音生成器。它創建具有自然輪流、適當節奏和情感表達的廣播品質多說話者對話。VibeVoice 輕鬆處理長篇內容,使其非常適合訪談播客、小組討論、教育系列和故事講述播客。輸出品質適合直接發布,最少後期製作。
- VibeVoice 是開源且免費使用嗎?
- 是的!VibeVoice 在 MIT 開源許可證下發布。您可以在 GitHub 上訪問完整的 VibeVoice 代碼庫,在自己的硬件上本地部署,並將其用於個人和商業項目。VibeVoice 可通過 Hugging Face 輕鬆集成,您可以在部署自己的實例之前在線試用 VibeVoice 演示。
- VibeVoice 需要什麼硬件?
- VibeVoice 提供兩種模型大小,具有不同的硬件要求。1.5B 參數 VibeVoice 模型需要 7-10GB VRAM,可以生成長達 90 分鐘的音頻。7B 參數 VibeVoice 模型需要 18-24GB VRAM,支持長達 45 分鐘的更高品質生成。VibeVoice 模型都可以在消費級 GPU 上運行,使專業多說話者合成對個人創作者和小型團隊可訪問。