VoxCPM2
使用 VoxCPM2 的先進 AI 語音生成創建錄音室品質的語音。從文本描述設計全新的語音,或精確控制情感、節奏和風格來克隆任何語音。體驗無令牌化器擴散架構在 30 種語言中的 48kHz 高保真音頻。
- 模型參數
- 20 億
- 支持的語言
- 30
- 音頻品質
- 48kHz
- 訓練數據
- 200 萬小時以上
體驗 VoxCPM2 即時演示
即時測試 VoxCPM2 的語音設計和可控克隆。從文本描述創建自訂語音,或對音色、情感和說話風格進行細粒度控制來克隆語音。
模型版本
選擇適合您需求的 VoxCPM 模型
VoxCPM 提供三個針對不同用例優化的模型版本。比較功能、性能和能力,為您的項目選擇最佳選擇。
VoxCPM2
最新
- 狀態
- 🟢 最新
- 骨幹參數
- 20 億
- 音頻採樣率
- 48kHz
- LM 令牌率
- 6.25Hz
- 語言
- 30
- 克隆模式
- 獨立參考和延續
- 語音設計
- ✅
- 可控克隆
- ✅
- SFT / LoRA
- ✅
- RTF (RTX 4090)
- ~0.30
- Nano-VLLM 中的 RTF
- ~0.13
- VRAM
- ~8 GB
VoxCPM1.5
穩定
- 狀態
- 🔵 穩定
- 骨幹參數
- 6 億
- 音頻採樣率
- 44.1kHz
- LM 令牌率
- 6.25Hz
- 語言
- 2 (中文、英文)
- 克隆模式
- 僅延續
- 語音設計
- —
- 可控克隆
- —
- SFT / LoRA
- ✅
- RTF (RTX 4090)
- ~0.15
- Nano-VLLM 中的 RTF
- ~0.08
- VRAM
- ~6 GB
VoxCPM-0.5B
舊版
- 狀態
- ⚪ 舊版
- 骨幹參數
- 5 億
- 音頻採樣率
- 16kHz
- LM 令牌率
- 12.5Hz
- 語言
- 2 (中文、英文)
- 克隆模式
- 僅延續
- 語音設計
- —
- 可控克隆
- —
- SFT / LoRA
- ✅
- RTF (RTX 4090)
- ~0.17
- Nano-VLLM 中的 RTF
- ~0.10
- VRAM
- ~5 GB
VoxCPM2 核心功能
適用於每個應用程序的專業語音生成
VoxCPM2 結合了尖端的擴散自回歸架構和直觀的控制,為全球內容創作者、開發人員和企業提供錄音室品質的語音合成。
- 零樣本語音設計
使用 VoxCPM2 的零樣本功能從自然語言描述創建全新的語音。無需參考音頻 - 只需描述性別、年齡、口音和說話風格等語音特徵。VoxCPM2 即時合成獨特的語音,非常適合角色創建、品牌語音開發和創意音頻項目,無需大量語音人才錄音。
- 可控語音克隆
使用 VoxCPM2 的高級克隆模式從短參考片段克隆任何語音。在保留原始音色的同時控制情感、節奏、音高和說話風格。VoxCPM2 提供獨立參考克隆和延續模式,以實現最大靈活性。帶有轉錄指導的終極克隆模式為專業配音和語音保存提供最高保真度的語音複製。
- 錄音室品質 48kHz 音頻
VoxCPM2 通過 AudioVAE V2 的非對稱架構輸出廣播就緒的 48kHz 高保真音頻。接受 16kHz 參考音頻並使用內置超分辨率上採樣到 48kHz,消除外部處理。VoxCPM2 提供清晰、自然的語音,適合專業媒體製作、播客、有聲書和商業應用,無需後處理。
- 30 種語言多語言支持
VoxCPM2 支持 30 種語言,包括英語、中文、西班牙語、法語、德語、日語、韓語、阿拉伯語、印地語等。包括粵語、四川話、吳語和地區變體的中文方言支持。VoxCPM2 在大多數情況下自動檢測輸入語言,使全球內容創作者和本地化團隊的多語言語音生成無縫銜接。
- 實時流式性能
VoxCPM2 在 RTX 4090 上實現 0.30 的 RTF,或使用 Nano-VLLM 優化實現 0.13,為互動應用程序啟用實時語音合成。部署僅需 8GB VRAM。VoxCPM2 的高效無令牌化器架構以 6.25Hz 令牌率處理語音,序列長度為 8192 個令牌,非常適合語音代理、實時配音和流式應用程序。
- 開源和可自訂
VoxCPM2 在 Apache 2.0 許可證下完全開源,在 Hugging Face 上有完整的模型權重。基於 MiniCPM-4 骨幹構建,具有 20 億參數,在 200 萬小時以上的多語言語音數據上訓練。VoxCPM2 支持通過 SFT 和 LoRA 進行微調以進行自訂語音適應。在您的基礎設施上部署,完全控制和透明,用於研究和商業用途。
VoxCPM2 常見問題
- 什麼是 VoxCPM2,它與其他 TTS 模型有何不同?
- VoxCPM2 是 OpenBMB 開發的具有 20 億參數的開源無令牌化器文本轉語音模型。與傳統 TTS 系統不同,VoxCPM2 使用擴散自回歸架構直接生成連續語音表示。VoxCPM2 獨特地結合了從文本描述的零樣本語音設計和可控語音克隆,提供三種不同的模式:無參考音頻的語音設計、具有風格控制的可控克隆,以及具有轉錄指導的終極克隆以實現最大保真度。
- VoxCPM2 支持哪些語言?
- VoxCPM2 支持 30 種語言:阿拉伯語、緬甸語、中文、丹麥語、荷蘭語、英語、芬蘭語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、挪威語、波蘭語、葡萄牙語、俄語、西班牙語、斯瓦希里語、瑞典語、他加祿語、泰語、土耳其語和越南語。VoxCPM2 還包括粵語、四川話、吳語、東北話、河南話、陝西話、山東話、天津話和閩南話方言的中文方言支持。VoxCPM2 在大多數情況下自動檢測輸入語言。
- VoxCPM2 語音設計如何在沒有參考音頻的情況下工作?
- VoxCPM2 的語音設計模式使用零樣本學習從自然語言描述創建全新的語音。只需在文本開頭的括號中描述所需的語音特徵(如性別、年齡、口音、音高、說話風格),VoxCPM2 就會即時合成匹配的語音。這消除了對語音人才錄音或參考音頻收集的需求,使角色開發、品牌語音和創意項目的自訂語音創建變得可訪問。
- VoxCPM2 產生什麼音頻品質?
- VoxCPM2 輸出適合專業媒體製作的錄音室品質 48kHz 音頻。VoxCPM2 使用具有非對稱編碼/解碼架構的 AudioVAE V2,接受 16kHz 參考音頻並使用內置超分辨率輸出 48kHz。這種高保真輸出消除了對外部上採樣或後處理的需求。VoxCPM2 在主要 TTS 基準測試(包括 Seed-TTS-eval、CV3-eval 和 InstructTTSEval)上實現了最先進的結果。
- VoxCPM2 的硬件要求是什麼?
- VoxCPM2 在 bfloat16 精度下使用 20 億參數模型進行推理需要約 8GB VRAM。VoxCPM2 在 RTX 4090 GPU 上實現 0.30 的 RTF,或使用 Nano-VLLM 優化實現 0.13 以實現更快的生成。最低要求是 Python 3.10 以上、PyTorch 2.5.0 以上和 CUDA 12.0 以上。VoxCPM2 可以在消費級 GPU 上運行,使個人開發人員和小型團隊無需企業基礎設施即可訪問專業語音合成。
- VoxCPM2 可以免費用於商業項目嗎?
- 是的,VoxCPM2 在 Apache 2.0 許可證下完全開源,允許個人和商業使用。您可以從 Hugging Face 下載 VoxCPM2 模型權重,在自己的基礎設施上部署,並根據您的特定需求進行自訂。VoxCPM2 支持通過監督微調(SFT)和 LoRA 進行語音適應的微調。OpenBMB 為 VoxCPM2 提供完整的文檔、代碼和模型權重,沒有 API 費用或使用限制。
- 我可以使用 VoxCPM2 控制情感和說話風格嗎?
- 是的,VoxCPM2 的可控克隆模式提供對語音屬性的細粒度控制。您可以在保留參考音頻中原始語音音色的同時調整情感、節奏、音高變化和說話風格。VoxCPM2 接受自然語言控制指令來操縱語音特徵。請注意,可控生成結果可能在運行之間有所不同 - VoxCPM2 開發人員建議生成 1-3 次以實現所需的語音或風格,因為他們繼續改進可控性一致性。