克隆专家

核心亮点

为什么选择声音克隆专家

毫秒级实时转换

流式音频处理管线，从麦克风输入到转换输出延迟极低，适合直播、语音聊天等实时场景。

GPU 硬件加速

支持 NVIDIA CUDA 与 DirectML，自动检测并启用可用的 GPU，数秒内完成模型加载并进入就绪状态。

精细参数调节

扩散步数、相似度、清晰度、温度、音高、噪声门限等 8 项核心参数均可实时调整，精细控制输出效果。

开箱即用

便携版免安装，下载解压即可运行。内置完整的 Python 运行时与所有预训练模型，无需配置环境。

技术架构

端到端声音克隆管线

采用先进的 Conditional Flow Matching 扩散模型与 BigVGAN 声码器，构建低延迟高质量的声音转换系统。

麦克风输入
22050 Hz

→

Silero VAD
语音活动检测

→

AstralQuantizer
内容特征提取

参考音频 → CAMPPlus 风格编码 (192d)

CFM DiT 扩散模型
13层 / 8头 / 512维

→

BigVGAN 声码器
80频带 Mel → 波形

→

扬声器输出
实时监控

预训练模型组件

模型	用途	骨干网络
CFM / DiT	Mel 频谱生成（核心扩散模型）	Diffusion Transformer, 13层
CAMPPlus	说话人风格编码	DTDNN, 192维嵌入
AstralQuantizer	语音内容特征量化	ConvNeXtV2 + BSQ
Whisper-small	语义 Token 提取	OpenAI Whisper
HuBERT-large-ll60k	SSL 声学特征提取	Facebook HuBERT
BigVGAN	Mel 频谱到波形合成	NVIDIA BigVGAN v2
Silero VAD	实时语音活动检测	Silero 轻量 VAD
NaiveTransformer	自回归长度调节	12层 / 768维 / 12头

功能详解

丰富的实时控制能力

可调参数

参数	范围	说明
扩散步数 (Steps)	4 - 32	步数越大质量越高，步数越小延迟越低；默认 8 步
相似度 (Similarity)	0.0 - 1.0	输出与目标音色的相似程度，值越高越接近参考音色
清晰度 (Clarity)	0.0 - 1.0	输出音频的清晰度与稳定性控制
温度 (Temperature)	0.1 - 2.0+	控制生成随机性，低温更稳定，高温更多变化
音高 (Pitch)	-12 - +12	半音为单位调节输出音高，可升高或降低一个八度
预上下文 (Pre-context)	0.05 - 0.5s	语音起始前的回溯音频长度
停顿缓冲 (Pause Buffer)	0.1 - 1.5s	判定说话结束前的静音等待时长
噪声门限 (Noise Gate)	0.0 - 1.0	自适应环境噪声过滤强度

智能 VAD

内置 Silero 语音活动检测，自动识别说话起止，无需手动控制录音开关。自适应环境噪声校准，嘈杂环境也能稳定工作。

音色管理

支持添加、切换、删除参考音色。将目标说话人的 WAV 文件放入 voices 目录即可注册为新音色，一键切换。

录音回放

内置 30 秒环形录音缓冲区，可随时回放刚才的转换结果，方便检查效果。支持导出为 WAV 格式。

技术规格

系统要求与规格

操作系统
Windows 10 / 11 (64-bit)
处理器
Intel / AMD x86-64
内存
8 GB 以上
GPU (可选)
NVIDIA CUDA 或 DirectML 兼容显卡
采样率
22050 Hz（输入/输出/模型内部统一）
音频格式
WAV（16/24/32-bit，单声道/立体声）
参考音频要求
WAV 格式，建议 3-10 秒清晰干声
界面语言
50+ 语言（含简体中文、英文）
版本
Electron 42.3.3 + Python 3.9
模型总大小
约 1.2 GB（预训练权重 + BigVGAN + 量化器）
推理引擎
PyTorch + TorchAudio + ONNX Runtime
安装方式
便携版，解压即用

快速上手

三步开始声音克隆

1

准备参考音频

将目标说话人的 WAV 音频文件（3-10 秒清晰干声）放入 voices 目录。

2

启动软件

双击运行，软件自动加载模型并初始化音频设备，数秒内进入就绪状态。

3

开始说话

选择目标音色，点击开始，对着麦克风说话即可实时听到转换后的声音。

获取软件

下载声音克隆专家

便携版免安装，下载解压即可使用。内置全部预训练模型与 Python 运行时。

下载 Windows 版

当前版本：1.0.1 | 文件大小：约 2.5 GB（含模型）| 支持 Windows 10/11 64-bit