OmniVoice

OmniVoiceの高度なボイスクローニングとカスタムボイスデザインで、テキストを600以上の言語の自然な音声に変換。最先端の拡散言語モデルによる超高速合成を体験してください。

対応言語
600以上
速度向上
40倍高速
モデルタイプ
Diffusion LM
ライセンス
オープンソース

OmniVoiceライブデモを体験

OmniVoiceでリアルタイムにボイスクローニングとカスタムボイス作成をテストできます。短い音声サンプルから任意のボイスをクローンするか、話者の特性を説明してユニークなボイスをデザインしてください。

コア機能

グローバルアプリケーション向けのプロフェッショナルテキスト音声変換

OmniVoiceは、世界中の開発者、コンテンツクリエイター、企業向けに、スタジオ品質のオーディオ、前例のない速度、柔軟性を備えた高度な多言語音声合成技術を提供します。

大規模な言語カバレッジ

OmniVoiceは600以上の言語と方言をサポートし、テキスト音声変換技術で最も包括的な言語カバレッジを提供します。教育、エンターテインメント、アクセシビリティ、ビジネスコミュニケーション全体で、真にグローバルなボイスアプリケーション向けに、適切なアクセント、イントネーション、文化的ニュアンスを持つ本物の音声を生成します。

デュアルボイス生成モード

OmniVoiceで2つの強力なアプローチから選択:短い音声サンプルから既存のボイスをクローンするか、性別、年齢、ピッチ、話し方、地域アクセントなどの属性を指定して全く新しいボイスをデザインします。どちらの方法も、広範なトレーニングデータや技術的専門知識を必要とせず、自然で感情表現豊かな音声を生成します。

超高速処理

0.025のリアルタイム係数を実現し、再生速度の40倍の速さで音声を生成します。この卓越したパフォーマンスにより、インタラクティブアプリケーション、ライブストリーミング、リアルタイム翻訳、カスタマーサービスボット、大規模コンテンツ制作向けに、遅延やボトルネックなしで即座に音声合成が可能になります。

表現力豊かな音声制御

笑い、ため息、さまざまな疑問のトーンを含む非言語表現で感情的な深みを追加します。英語と中国語の両方で音声表記を使用して発音を微調整します。オーディオブック、ポッドキャスト、バーチャルアシスタント向けに、魅力的で人間らしいボイスパフォーマンスを作成するために、話す速度、ピッチの変化、感情の強度を調整します。

エンタープライズ対応インフラストラクチャ

本番環境デプロイメント向けに最適化されたスケーラブルな拡散言語モデルアーキテクチャに基づいて構築されています。完全なデータプライバシーと制御のために自分のサーバーでセルフホストするか、API経由で統合します。大量合成タスク向けに複数のGPUでのバッチ処理をサポート。Python SDKとコマンドラインツールで完全にドキュメント化されています。

研究に裏付けられたイノベーション

学術誌に掲載されたピアレビュー済み研究を持つXiaomiの次世代Kaldiチーム(k2-fsa)によって開発されました。新しい拡散ベースのアーキテクチャは、合成品質と計算効率のバランスを取り、オープンソースコラボレーションを通じて世界中の開発者と研究者がプロフェッショナルなボイス生成にアクセスできるようにします。

よくある質問

OmniVoiceとは何ですか?どのように機能しますか?
OmniVoiceは600以上の言語をサポートする大規模多言語ゼロショット合成システムです。新しい拡散言語モデルアーキテクチャに基づいて構築されたOmniVoiceは、優れた推論速度で高品質な音声を生成します。このプラットフォームは、参照音声からのボイスクローニングと属性記述によるカスタムボイスデザインをユニークに組み合わせており、すべてモデルの再トレーニングを必要としません。
OmniVoiceの言語サポートはどの程度広範囲ですか?
OmniVoiceは600以上の言語と方言をサポートしており、利用可能なテキスト音声変換モデルの中で最も広範なカバレッジを表しています。サポートされているすべての言語で地域アクセント、発音パターン、文化的音声特性を正確に捉え、グローバルコンテンツのローカライゼーションと多言語アプリケーションに最適です。
ボイスクローニングとボイスデザインの違いは何ですか?
ボイスクローニングは参照音声サンプルから既存のボイスを複製し、その独特の特性と話し方を捉えます。ボイスデザインは、性別、年齢範囲、ピッチレベル、アクセントタイプ、話し方などの望ましい属性を記述することで、参照音声なしで全く新しいボイスを作成します。どちらのアプローチもプロフェッショナルなアプリケーションに適した自然で高品質な音声を生成します。
OmniVoiceの音声生成はどのくらい速いですか?
OmniVoiceは0.025という低いリアルタイム係数(RTF)を実現し、リアルタイム再生の40倍の速さで音声を生成します。例えば、10秒のオーディオを生成するのにわずか0.25秒しかかかりません。この卓越した速度により、インタラクティブなボイスエージェント、ライブアプリケーション、リアルタイム翻訳サービス、大規模コンテンツ制作ワークフローに最適です。
OmniVoiceは商用利用可能ですか?
はい、OmniVoiceは完全にオープンソースでGitHubで利用可能です。完全なコードベースにアクセスし、自分のインフラストラクチャにデプロイし、特定のニーズに合わせてカスタマイズできます。このモデルはXiaomiの次世代Kaldiチーム(k2-fsa)によって開発され、研究と商用アプリケーションの両方で無料で利用できます。
発音を制御して感情表現を追加できますか?
もちろんです。システムは、笑い、ため息、さまざまな疑問のイントネーションなどの非言語表現を含む細かい制御をサポートしています。中国語の場合はピンイン表記、英語の場合は音声記号を使用して発音を修正できます。さらに、話し方、ピッチの変化、速度、感情表現を調整して、魅力的で自然な音声パフォーマンスを作成できます。