v

voice-pro

由 abus-aikorea 研发

Voice-Pro 是一款基于 AI 的综合性音视频处理 Web 应用,旨在成为 ElevenLabs 的强大替代方案。它通过 Gradio 提供界面,集成了视频下载、人声分离、高精度语音识别(基于 Whisper 系列模型)、以及支持百余种语言的翻译功能。其最大特色在于利用 F5-TTS、E2-TTS 和 CosyVoice 等模型实现零样本声音克隆与多语言 TTS 配音。官方近期已将其完全开源免费,适合创作者在桌面端(尤其配备 NVIDIA GPU 的环境)进行本地部署与多媒体内容制作。

  • 基于 Whisper 及 WhisperX 的高精度语音识别与时间戳转录
  • 集成 F5-TTS 与 CosyVoice 的零样本声音克隆技术
  • 支持超百种语言的即时机器翻译与多语言 TTS 自动配音
  • 内置 yt-dlp 支持 YouTube 视频处理与音轨智能分离
desktopweb