关于产品

Voice-Pro 是一款基于 AI 的综合性音视频处理 Web 应用，旨在成为 ElevenLabs 的强大替代方案。它通过 Gradio 提供界面，集成了视频下载、人声分离、高精度语音识别（基于 Whisper 系列模型）、以及支持百余种语言的翻译功能。其最大特色在于利用 F5-TTS、E2-TTS 和 CosyVoice 等模型实现零样本声音克隆与多语言 TTS 配音。官方近期已将其完全开源免费，适合创作者在桌面端（尤其配备 NVIDIA GPU 的环境）进行本地部署与多媒体内容制作。

核心能力

基于 Whisper 及 WhisperX 的高精度语音识别与时间戳转录
集成 F5-TTS 与 CosyVoice 的零样本声音克隆技术
支持超百种语言的即时机器翻译与多语言 TTS 自动配音
内置 yt-dlp 支持 YouTube 视频处理与音轨智能分离

支持平台

desktopweb

资源链接

访问官网 ↗ GitHub 仓库 ↗

voice-pro