声音克隆专家

音创社出品

基于深度学习的实时AI声音克隆桌面软件 — 只需一段参考音频,即可将你的声音实时转换为目标音色

实时推理 GPU 加速 免安装便携版 Windows

为什么选择声音克隆专家

毫秒级实时转换

流式音频处理管线,从麦克风输入到转换输出延迟极低,适合直播、语音聊天等实时场景。

GPU 硬件加速

支持 NVIDIA CUDA 与 DirectML,自动检测并启用可用的 GPU,数秒内完成模型加载并进入就绪状态。

精细参数调节

扩散步数、相似度、清晰度、温度、音高、噪声门限等 8 项核心参数均可实时调整,精细控制输出效果。

开箱即用

便携版免安装,下载解压即可运行。内置完整的 Python 运行时与所有预训练模型,无需配置环境。

端到端声音克隆管线

采用先进的 Conditional Flow Matching 扩散模型与 BigVGAN 声码器,构建低延迟高质量的声音转换系统。

麦克风输入
22050 Hz
Silero VAD
语音活动检测
AstralQuantizer
内容特征提取
参考音频 → CAMPPlus 风格编码 (192d)
CFM DiT 扩散模型
13层 / 8头 / 512维
BigVGAN 声码器
80频带 Mel → 波形
扬声器输出
实时监控

预训练模型组件

模型用途骨干网络
CFM / DiTMel 频谱生成(核心扩散模型)Diffusion Transformer, 13层
CAMPPlus说话人风格编码DTDNN, 192维嵌入
AstralQuantizer语音内容特征量化ConvNeXtV2 + BSQ
Whisper-small语义 Token 提取OpenAI Whisper
HuBERT-large-ll60kSSL 声学特征提取Facebook HuBERT
BigVGANMel 频谱到波形合成NVIDIA BigVGAN v2
Silero VAD实时语音活动检测Silero 轻量 VAD
NaiveTransformer自回归长度调节12层 / 768维 / 12头

丰富的实时控制能力

可调参数

参数范围说明
扩散步数 (Steps)4 - 32步数越大质量越高,步数越小延迟越低;默认 8 步
相似度 (Similarity)0.0 - 1.0输出与目标音色的相似程度,值越高越接近参考音色
清晰度 (Clarity)0.0 - 1.0输出音频的清晰度与稳定性控制
温度 (Temperature)0.1 - 2.0+控制生成随机性,低温更稳定,高温更多变化
音高 (Pitch)-12 - +12半音为单位调节输出音高,可升高或降低一个八度
预上下文 (Pre-context)0.05 - 0.5s语音起始前的回溯音频长度
停顿缓冲 (Pause Buffer)0.1 - 1.5s判定说话结束前的静音等待时长
噪声门限 (Noise Gate)0.0 - 1.0自适应环境噪声过滤强度

智能 VAD

内置 Silero 语音活动检测,自动识别说话起止,无需手动控制录音开关。自适应环境噪声校准,嘈杂环境也能稳定工作。

音色管理

支持添加、切换、删除参考音色。将目标说话人的 WAV 文件放入 voices 目录即可注册为新音色,一键切换。

录音回放

内置 30 秒环形录音缓冲区,可随时回放刚才的转换结果,方便检查效果。支持导出为 WAV 格式。

系统要求与规格

三步开始声音克隆

1

准备参考音频

将目标说话人的 WAV 音频文件(3-10 秒清晰干声)放入 voices 目录。

2

启动软件

双击运行,软件自动加载模型并初始化音频设备,数秒内进入就绪状态。

3

开始说话

选择目标音色,点击开始,对着麦克风说话即可实时听到转换后的声音。

下载声音克隆专家

便携版免安装,下载解压即可使用。内置全部预训练模型与 Python 运行时。

当前版本:1.0.1 | 文件大小:约 2.5 GB(含模型)| 支持 Windows 10/11 64-bit