Free Beta • Open Source

Voxtral TTS

在幾秒內創建自然的 AI 語音。Voxtral TTS 是一個具有 40 億參數的開源文本轉語音模型。使用超低延遲和語音克隆功能，以 9 種語言生成逼真、情感表達豐富的語音。

試試 Voxtral TTS 查看模型卡

40 億

模型參數

支持的語言

70ms

首個音頻的時間

3 秒

語音克隆時間

Try It Live

Experience Voxtral TTS Now

Generate natural AI voices instantly. Type your text, choose a voice, and hear the results in seconds with zero-shot voice cloning.

70ms Latency

3s Voice Clone

9 Languages

Open Source

什麼是 Voxtral TTS

為所有人提供企業級語音 AI

Voxtral TTS 是 Mistral AI 的開源文本轉語音模型，提供自然、情感表達豐富的語音生成。具有 40 億參數和混合架構，以 70ms 延遲和 3 秒音頻的零樣本語音克隆為生產語音代理提供支持。

🎵

閃電般快速的語音生成

業界領先的 70ms 首個音頻時間和 9.7 倍實時係數。在短短 1.6 秒內生成 10 秒的語音。非常適合互動式語音代理、客戶支持和實時應用。

🌍

3 秒內克隆任何語音

從最少的參考音頻進行零樣本語音克隆。捕捉語音特性、語調和情感表達。在 9 種語言中保持語音身份，用於配音和多語言內容。

🎧

9 種語言，真實方言

英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、意大利語、印地語和阿拉伯語的原生品質語音。準確捕捉地區口音和文化細微差別。

🎛️

生產就緒架構

結合自回歸和流匹配的混合架構。單個 H200 GPU 為 30 多個並發用戶提供服務，具有不間斷的流式傳輸。為企業規模構建，具有經過驗證的可靠性。

Voxtral TTS vs 競爭對手

為什麼選擇 Voxtral TTS 而不是其他文本轉語音平台

查看 Voxtral TTS 與 ElevenLabs 和 Google Cloud 等領先 TTS 平台的比較。Voxtral TTS 以開源靈活性、零樣本語音克隆和企業語音代理的超低延遲提供無與倫比的價值。

Feature

Voxtral TTS

Others

定價

開源和自託管

每 1000 個字符 $0.15-0.30

模型訪問

開放權重 - Hugging Face 上的 40 億參數

閉源 - 僅限 API

語音克隆

需要 3 秒參考音頻

30 秒以上或僅預訓練

語言

9 種語言，支持方言

有限 - 29 種語言

延遲

70ms 首個音頻時間

200-500ms 典型延遲

實時係數

9.7 倍 RTF - 10 秒音頻 1.6 秒

3-5 倍 RTF 典型

自託管

在您的基礎設施上部署

僅限雲服務

流式輸出

30 多個並發用戶的原生流式傳輸

有限的並發性

為什麼選擇 Voxtral TTS

開源文本轉語音 AI 的未來

Voxtral TTS 結合了尖端語音合成技術和開源自由，為您提供對生產語音代理和企業應用程序的語音生成的完全控制。

🎁

100% 開源 TTS

無 API 費用，無使用限制。使用 Voxtral TTS 部署無限語音生成。CC BY-NC 許可證下的開放權重模型使企業級文本轉語音民主化。

👁️

完全透明

開放權重模型、已發布研究和完整架構訪問。準確了解 Voxtral TTS 如何生成自然語音。查看我們的 arXiv 論文（2603.25551）了解技術實現細節。

🖥️

自託管選項

在您自己的基礎設施上部署 Voxtral TTS，以實現完整的數據控制和隱私。您的語音數據在您的服務器上保持安全，滿足受監管行業的合規要求。

🎓

學術基礎

由同行評審研究支持，具有結合自回歸和流匹配的混合架構。Voxtral TTS 代表以 68.4% 的勝率超越 ElevenLabs 的尖端開源文本轉語音技術。

立即嘗試

在線體驗 AI 語音生成

開源 • 70ms 延遲 • 9 種語言

技術

開源文本轉語音生成

Voxtral TTS 利用具有 40 億參數的混合架構，在 9 種語言中提供具有自然表達力和超低延遲的企業級語音合成，用於生產語音代理。

AI 驅動的語音合成: 基於 40 億參數混合架構，Voxtral TTS 從文本創建自然、情感表達豐富的語音。結合自回歸語義生成和流匹配以實現聲學豐富性。完全開源。
9 種語言和方言: 以英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、意大利語、印地語和阿拉伯語生成自然語音。Voxtral TTS 為全球語音應用捕捉真實的口音和文化細微差別。
超低延遲流式傳輸: 由 Voxtral Codec 提供支持，具有 70ms 首個音頻時間和 9.7 倍實時係數。為互動式語音代理流式傳輸語音生成，具有亞秒級響應時間和不間斷的輸出。
零樣本語音克隆: 從短短 3 秒的參考音頻克隆任何語音。Voxtral TTS 在語言中保持語音身份、語調和情感表達，用於配音、翻譯和個性化語音代理。

常見問題

什麼是 Voxtral TTS？: Voxtral TTS 是由 Mistral AI 開發的具有 40 億參數的開源文本轉語音模型。它從文本生成自然、情感表達豐富的語音，具有從短短 3 秒參考音頻的零樣本語音克隆。支持 9 種語言。
Voxtral TTS 語音生成有多快？: Voxtral TTS 實現 70ms 首個音頻時間和 9.7 倍實時係數，在大約 1.6 秒內生成 10 秒的語音。針對生產語音代理和互動應用中的低延遲流式傳輸進行了優化。
Voxtral TTS 支持哪些語言？: Voxtral TTS 支持 9 種語言：英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、意大利語、印地語和阿拉伯語。該模型準確捕捉多種方言和口音，用於真正的多語言語音合成。
Voxtral TTS 中的語音克隆如何工作？: Voxtral TTS 從短短 3 秒的參考音頻執行零樣本語音克隆。它捕捉語音特性、語調、語調和情感表達，即使在不同語言中也能保持語音身份，用於配音。
Voxtral TTS 可以免費使用嗎？: 是的！Voxtral TTS 在 CC BY-NC 許可證下是開源的。從 Hugging Face 下載模型權重，在您的基礎設施上部署，無需 API 費用。企業級文本轉語音對所有人都可訪問。