VoxCPM2

VoxCPM2の高度なAI音声生成でスタジオ品質の音声を作成。テキスト記述から全く新しい音声をデザインするか、感情、ペース、スタイルを正確に制御して任意の音声をクローンします。トークナイザーフリー拡散アーキテクチャで30言語にわたる48kHz高忠実度オーディオを体験してください。

モデルパラメータ
20億
対応言語
30
音質
48kHz
トレーニングデータ
200万時間以上

VoxCPM2ライブデモを体験

VoxCPM2の音声デザインと制御可能なクローニングをリアルタイムでテストします。テキスト記述からカスタム音声を作成するか、音色、感情、話し方を細かく制御して音声をクローンします。

モデルバージョン

ニーズに合った適切なVoxCPMモデルを選択

VoxCPMは、さまざまなユースケースに最適化された3つのモデルバージョンを提供します。機能、パフォーマンス、機能を比較して、プロジェクトに最適なものを選択してください。

VoxCPM2

最新

ステータス
🟢 最新
バックボーンパラメータ
20億
音声サンプルレート
48kHz
LMトークンレート
6.25Hz
言語
30
クローニングモード
独立参照と継続
音声デザイン
制御可能なクローニング
SFT / LoRA
RTF (RTX 4090)
~0.30
Nano-VLLMでのRTF
~0.13
VRAM
~8 GB

VoxCPM1.5

安定版

ステータス
🔵 安定版
バックボーンパラメータ
6億
音声サンプルレート
44.1kHz
LMトークンレート
6.25Hz
言語
2 (中国語、英語)
クローニングモード
継続のみ
音声デザイン
制御可能なクローニング
SFT / LoRA
RTF (RTX 4090)
~0.15
Nano-VLLMでのRTF
~0.08
VRAM
~6 GB

VoxCPM-0.5B

レガシー

ステータス
⚪ レガシー
バックボーンパラメータ
5億
音声サンプルレート
16kHz
LMトークンレート
12.5Hz
言語
2 (中国語、英語)
クローニングモード
継続のみ
音声デザイン
制御可能なクローニング
SFT / LoRA
RTF (RTX 4090)
~0.17
Nano-VLLMでのRTF
~0.10
VRAM
~5 GB

VoxCPM2コア機能

あらゆるアプリケーション向けのプロフェッショナル音声生成

VoxCPM2は最先端の拡散自己回帰アーキテクチャと直感的なコントロールを組み合わせ、世界中のコンテンツクリエイター、開発者、企業向けにスタジオ品質の音声合成を提供します。

ゼロショット音声デザイン

VoxCPM2のゼロショット機能を使用して、自然言語記述から全く新しい音声を作成します。参照音声は不要で、性別、年齢、アクセント、話し方などの音声特性を記述するだけです。VoxCPM2は独自の音声を即座に合成し、広範な音声タレント録音なしでキャラクター作成、ブランド音声開発、クリエイティブオーディオプロジェクトに最適です。

制御可能な音声クローニング

VoxCPM2の高度なクローニングモードで短い参照クリップから任意の音声をクローンします。元の音色を保持しながら、感情、ペース、ピッチ、話し方を制御します。VoxCPM2は最大限の柔軟性のために独立参照クローニングと継続モードの両方を提供します。トランスクリプトガイダンス付きの究極のクローニングモードは、プロフェッショナルなダビングと音声保存のための最高忠実度の音声複製を提供します。

スタジオ品質48kHzオーディオ

VoxCPM2はAudioVAE V2の非対称アーキテクチャを通じて放送対応の48kHz高忠実度オーディオを出力します。16kHz参照音声を受け入れ、内蔵スーパーレゾリューションで48kHzにアップサンプリングし、外部処理を排除します。VoxCPM2は後処理なしでプロフェッショナルなメディア制作、ポッドキャスト、オーディオブック、商用アプリケーションに適したクリアで自然な音声を提供します。

30言語多言語サポート

VoxCPM2は英語、中国語、スペイン語、フランス語、ドイツ語、日本語、韓国語、アラビア語、ヒンディー語など30言語をサポートします。広東語、四川語、呉語、地域バリエーションの中国語方言サポートを含みます。VoxCPM2はほとんどの場合、入力言語を自動的に検出し、グローバルコンテンツクリエイターとローカライゼーションチームのための多言語音声生成をシームレスにします。

リアルタイムストリーミングパフォーマンス

VoxCPM2はRTX 4090で0.30のRTFを達成し、Nano-VLLM最適化で0.13を実現し、インタラクティブアプリケーション向けのリアルタイム音声合成を可能にします。展開には8GB VRAMのみが必要です。VoxCPM2の効率的なトークナイザーフリーアーキテクチャは、8192トークンシーケンス長で6.25Hzトークンレートで音声を処理し、音声エージェント、ライブダビング、ストリーミングアプリケーションに最適です。

オープンソースとカスタマイズ可能

VoxCPM2はApache 2.0ライセンスの下で完全にオープンソースであり、Hugging Faceに完全なモデルウェイトがあります。200万時間以上の多言語音声データで訓練された20億パラメータのMiniCPM-4バックボーンに基づいて構築されています。VoxCPM2はカスタム音声適応のためのSFTとLoRAによる微調整をサポートします。研究と商用利用のために完全な制御と透明性を持って自分のインフラストラクチャに展開します。

VoxCPM2よくある質問

VoxCPM2とは何ですか、他のTTSモデルとどう違いますか?
VoxCPM2はOpenBMBが開発した20億パラメータのオープンソーストークナイザーフリーテキスト音声変換モデルです。従来のTTSシステムとは異なり、VoxCPM2は拡散自己回帰アーキテクチャを使用して連続音声表現を直接生成します。VoxCPM2はテキスト記述からのゼロショット音声デザインと制御可能な音声クローニングをユニークに組み合わせ、参照音声なしの音声デザイン、スタイル制御付きの制御可能なクローニング、最大忠実度のためのトランスクリプトガイダンス付きの究極のクローニングの3つの異なるモードを提供します。
VoxCPM2はどの言語をサポートしていますか?
VoxCPM2は30言語をサポートしています:アラビア語、ビルマ語、中国語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、クメール語、韓国語、ラオ語、マレー語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タイ語、トルコ語、ベトナム語。VoxCPM2には広東語、四川語、呉語、東北語、河南語、陝西語、山東語、天津語、閩南語の中国語方言サポートも含まれています。VoxCPM2はほとんどの場合、入力言語を自動的に検出します。
VoxCPM2の音声デザインは参照音声なしでどのように機能しますか?
VoxCPM2の音声デザインモードはゼロショット学習を使用して、自然言語記述から全く新しい音声を作成します。テキストの先頭に括弧で希望する音声特性(性別、年齢、アクセント、ピッチ、話し方など)を記述するだけで、VoxCPM2は一致する音声を即座に合成します。これにより、音声タレント録音や参照音声収集の必要性がなくなり、キャラクター開発、ブランド音声、クリエイティブプロジェクトのためのカスタム音声作成がアクセス可能になります。
VoxCPM2はどのような音質を生成しますか?
VoxCPM2はプロフェッショナルなメディア制作に適したスタジオ品質の48kHzオーディオを出力します。VoxCPM2は16kHz参照音声を受け入れ、内蔵スーパーレゾリューションで48kHzを出力する非対称エンコード/デコードアーキテクチャを持つAudioVAE V2を使用します。この高忠実度出力により、外部アップサンプリングや後処理の必要性がなくなります。VoxCPM2はSeed-TTS-eval、CV3-eval、InstructTTSEvalを含む主要なTTSベンチマークで最先端の結果を達成します。
VoxCPM2のハードウェア要件は何ですか?
VoxCPM2はbfloat16精度の20億パラメータモデルで推論に約8GB VRAMが必要です。VoxCPM2はRTX 4090 GPUで0.30のRTFを達成し、より高速な生成のためのNano-VLLM最適化で0.13を実現します。最小要件はPython 3.10以上、PyTorch 2.5.0以上、CUDA 12.0以上です。VoxCPM2はコンシューマーグレードのGPUで実行でき、エンタープライズインフラストラクチャなしで個人開発者と小規模チームがプロフェッショナルな音声合成にアクセスできるようにします。
VoxCPM2は商用プロジェクトで無料で使用できますか?
はい、VoxCPM2はApache 2.0ライセンスの下で完全にオープンソースであり、個人および商用利用の両方が可能です。Hugging FaceからVoxCPM2モデルウェイトをダウンロードし、自分のインフラストラクチャに展開し、特定のニーズに合わせてカスタマイズできます。VoxCPM2は音声適応のための教師あり微調整(SFT)とLoRAによる微調整をサポートします。OpenBMBはVoxCPM2のAPIフィーや使用制限なしで完全なドキュメント、コード、モデルウェイトを提供します。
VoxCPM2で感情と話し方を制御できますか?
はい、VoxCPM2の制御可能なクローニングモードは音声属性の細かい制御を提供します。参照音声から元の音声音色を保持しながら、感情、ペース、ピッチ変化、話し方を調整できます。VoxCPM2は音声特性を操作するための自然言語制御指示を受け入れます。制御可能な生成結果は実行間で異なる場合があることに注意してください。VoxCPM2開発者は、制御可能性の一貫性を改善し続けているため、希望する音声またはスタイルを達成するために1〜3回生成することを推奨しています。