VoxCPM2

VoxCPM2의 고급 AI 음성 생성으로 스튜디오 품질의 음성을 만드세요. 텍스트 설명에서 완전히 새로운 음성을 디자인하거나 감정, 속도, 스타일을 정밀하게 제어하여 모든 음성을 복제하세요. 토크나이저 프리 확산 아키텍처로 30개 언어에 걸쳐 48kHz 고충실도 오디오를 경험하세요.

VoxCPM2 무료 체험 GitHub에서 보기

모델 매개변수: 20억
지원 언어: 30
오디오 품질: 48kHz
훈련 데이터: 200만 시간 이상

VoxCPM2 라이브 데모 체험

VoxCPM2의 음성 디자인과 제어 가능한 복제를 실시간으로 테스트하세요. 텍스트 설명에서 맞춤 음성을 만들거나 음색, 감정, 말하기 스타일을 세밀하게 제어하여 음성을 복제하세요.

모델 버전

필요에 맞는 적합한 VoxCPM 모델 선택

VoxCPM은 다양한 사용 사례에 최적화된 3가지 모델 버전을 제공합니다. 기능, 성능 및 기능을 비교하여 프로젝트에 가장 적합한 것을 선택하세요.

VoxCPM2

최신

상태: 🟢 최신
백본 매개변수: 20억
오디오 샘플 레이트: 48kHz
LM 토큰 레이트: 6.25Hz
언어: 30
복제 모드: 독립 참조 및 연속
음성 디자인: ✅
제어 가능한 복제: ✅
SFT / LoRA: ✅
RTF (RTX 4090): ~0.30
Nano-VLLM의 RTF: ~0.13
VRAM: ~8 GB

VoxCPM1.5

안정

상태: 🔵 안정
백본 매개변수: 6억
오디오 샘플 레이트: 44.1kHz
LM 토큰 레이트: 6.25Hz
언어: 2 (중국어, 영어)
복제 모드: 연속만
음성 디자인: —
제어 가능한 복제: —
SFT / LoRA: ✅
RTF (RTX 4090): ~0.15
Nano-VLLM의 RTF: ~0.08
VRAM: ~6 GB

VoxCPM-0.5B

레거시

상태: ⚪ 레거시
백본 매개변수: 5억
오디오 샘플 레이트: 16kHz
LM 토큰 레이트: 12.5Hz
언어: 2 (중국어, 영어)
복제 모드: 연속만
음성 디자인: —
제어 가능한 복제: —
SFT / LoRA: ✅
RTF (RTX 4090): ~0.17
Nano-VLLM의 RTF: ~0.10
VRAM: ~5 GB

VoxCPM2 핵심 기능

모든 애플리케이션을 위한 전문 음성 생성

VoxCPM2는 최첨단 확산 자기회귀 아키텍처와 직관적인 제어를 결합하여 전 세계 콘텐츠 제작자, 개발자 및 기업을 위한 스튜디오 품질의 음성 합성을 제공합니다.

제로샷 음성 디자인: VoxCPM2의 제로샷 기능을 사용하여 자연어 설명에서 완전히 새로운 음성을 만드세요. 참조 오디오가 필요 없습니다. 성별, 나이, 억양, 말하기 스타일과 같은 음성 특성을 설명하기만 하면 됩니다. VoxCPM2는 광범위한 음성 재능 녹음 없이 캐릭터 생성, 브랜드 음성 개발 및 창의적인 오디오 프로젝트에 완벽한 고유한 음성을 즉시 합성합니다.
제어 가능한 음성 복제: VoxCPM2의 고급 복제 모드로 짧은 참조 클립에서 모든 음성을 복제하세요. 원래 음색을 유지하면서 감정, 속도, 피치 및 말하기 스타일을 제어하세요. VoxCPM2는 최대 유연성을 위해 독립 참조 복제 및 연속 모드를 모두 제공합니다. 트랜스크립트 가이드가 있는 궁극의 복제 모드는 전문 더빙 및 음성 보존을 위한 최고 충실도 음성 복제를 제공합니다.
스튜디오 품질 48kHz 오디오: VoxCPM2는 AudioVAE V2의 비대칭 아키텍처를 통해 방송 준비 48kHz 고충실도 오디오를 출력합니다. 16kHz 참조 오디오를 수용하고 내장 초해상도로 48kHz로 업샘플링하여 외부 처리를 제거합니다. VoxCPM2는 후처리 없이 전문 미디어 제작, 팟캐스트, 오디오북 및 상업 애플리케이션에 적합한 선명하고 자연스러운 음성을 제공합니다.
30개 언어 다국어 지원: VoxCPM2는 영어, 중국어, 스페인어, 프랑스어, 독일어, 일본어, 한국어, 아랍어, 힌디어 등 30개 언어를 지원합니다. 광동어, 사천어, 오어 및 지역 변형에 대한 중국어 방언 지원을 포함합니다. VoxCPM2는 대부분의 경우 입력 언어를 자동으로 감지하여 글로벌 콘텐츠 제작자 및 현지화 팀을 위한 다국어 음성 생성을 원활하게 만듭니다.
실시간 스트리밍 성능: VoxCPM2는 RTX 4090에서 0.30의 RTF를 달성하거나 Nano-VLLM 최적화로 0.13을 달성하여 대화형 애플리케이션을 위한 실시간 음성 합성을 가능하게 합니다. 배포에는 8GB VRAM만 필요합니다. VoxCPM2의 효율적인 토크나이저 프리 아키텍처는 8192 토큰 시퀀스 길이로 6.25Hz 토큰 속도로 음성을 처리하여 음성 에이전트, 라이브 더빙 및 스트리밍 애플리케이션에 완벽합니다.
오픈소스 및 사용자 정의 가능: VoxCPM2는 Apache 2.0 라이선스 하에 완전히 오픈소스이며 Hugging Face에 완전한 모델 가중치가 있습니다. 200만 시간 이상의 다국어 음성 데이터로 훈련된 20억 매개변수의 MiniCPM-4 백본을 기반으로 구축되었습니다. VoxCPM2는 맞춤 음성 적응을 위한 SFT 및 LoRA를 통한 미세 조정을 지원합니다. 연구 및 상업적 사용을 위해 완전한 제어 및 투명성으로 자체 인프라에 배포하세요.

VoxCPM2 자주 묻는 질문

VoxCPM2란 무엇이며 다른 TTS 모델과 어떻게 다릅니까?: VoxCPM2는 OpenBMB가 개발한 20억 매개변수의 오픈소스 토크나이저 프리 텍스트 음성 변환 모델입니다. 기존 TTS 시스템과 달리 VoxCPM2는 확산 자기회귀 아키텍처를 사용하여 연속 음성 표현을 직접 생성합니다. VoxCPM2는 텍스트 설명의 제로샷 음성 디자인과 제어 가능한 음성 복제를 고유하게 결합하여 참조 오디오 없는 음성 디자인, 스타일 제어가 있는 제어 가능한 복제, 최대 충실도를 위한 트랜스크립트 가이드가 있는 궁극의 복제의 세 가지 고유한 모드를 제공합니다.
VoxCPM2는 어떤 언어를 지원합니까?: VoxCPM2는 30개 언어를 지원합니다: 아랍어, 버마어, 중국어, 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 크메르어, 한국어, 라오어, 말레이어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 스와힐리어, 스웨덴어, 타갈로그어, 태국어, 터키어, 베트남어. VoxCPM2는 광동어, 사천어, 오어, 동북어, 하남어, 섬서어, 산동어, 천진어, 민남어 방언에 대한 중국어 방언 지원도 포함합니다. VoxCPM2는 대부분의 경우 입력 언어를 자동으로 감지합니다.
VoxCPM2 음성 디자인은 참조 오디오 없이 어떻게 작동합니까?: VoxCPM2의 음성 디자인 모드는 제로샷 학습을 사용하여 자연어 설명에서 완전히 새로운 음성을 만듭니다. 텍스트 시작 부분에 괄호 안에 원하는 음성 특성(성별, 나이, 억양, 피치, 말하기 스타일 등)을 설명하기만 하면 VoxCPM2가 일치하는 음성을 즉시 합성합니다. 이렇게 하면 음성 재능 녹음이나 참조 오디오 수집이 필요 없어 캐릭터 개발, 브랜드 음성 및 창의적인 프로젝트를 위한 맞춤 음성 생성에 액세스할 수 있습니다.
VoxCPM2는 어떤 오디오 품질을 생성합니까?: VoxCPM2는 전문 미디어 제작에 적합한 스튜디오 품질의 48kHz 오디오를 출력합니다. VoxCPM2는 16kHz 참조 오디오를 수용하고 내장 초해상도로 48kHz를 출력하는 비대칭 인코드/디코드 아키텍처를 가진 AudioVAE V2를 사용합니다. 이 고충실도 출력은 외부 업샘플링이나 후처리의 필요성을 제거합니다. VoxCPM2는 Seed-TTS-eval, CV3-eval 및 InstructTTSEval을 포함한 주요 TTS 벤치마크에서 최첨단 결과를 달성합니다.
VoxCPM2의 하드웨어 요구 사항은 무엇입니까?: VoxCPM2는 bfloat16 정밀도의 20억 매개변수 모델로 추론에 약 8GB VRAM이 필요합니다. VoxCPM2는 RTX 4090 GPU에서 0.30의 RTF를 달성하거나 더 빠른 생성을 위한 Nano-VLLM 최적화로 0.13을 달성합니다. 최소 요구 사항은 Python 3.10 이상, PyTorch 2.5.0 이상 및 CUDA 12.0 이상입니다. VoxCPM2는 소비자급 GPU에서 실행할 수 있어 엔터프라이즈 인프라 없이 개인 개발자와 소규모 팀이 전문 음성 합성에 액세스할 수 있습니다.
VoxCPM2는 상업 프로젝트에 무료로 사용할 수 있습니까?: 예, VoxCPM2는 Apache 2.0 라이선스 하에 완전히 오픈소스이며 개인 및 상업적 사용이 모두 가능합니다. Hugging Face에서 VoxCPM2 모델 가중치를 다운로드하고 자체 인프라에 배포하며 특정 요구 사항에 맞게 사용자 정의할 수 있습니다. VoxCPM2는 음성 적응을 위한 지도 미세 조정(SFT) 및 LoRA를 통한 미세 조정을 지원합니다. OpenBMB는 VoxCPM2에 대한 API 수수료나 사용 제한 없이 완전한 문서, 코드 및 모델 가중치를 제공합니다.
VoxCPM2로 감정과 말하기 스타일을 제어할 수 있습니까?: 예, VoxCPM2의 제어 가능한 복제 모드는 음성 속성에 대한 세밀한 제어를 제공합니다. 참조 오디오에서 원래 음성 음색을 유지하면서 감정, 속도, 피치 변화 및 말하기 스타일을 조정할 수 있습니다. VoxCPM2는 음성 특성을 조정하기 위한 자연어 제어 지침을 수용합니다. 제어 가능한 생성 결과는 실행 간에 다를 수 있습니다. VoxCPM2 개발자는 제어 가능성 일관성을 계속 개선하고 있으므로 원하는 음성이나 스타일을 얻기 위해 1-3번 생성할 것을 권장합니다.