流式音频处理管线,从麦克风输入到转换输出延迟极低,适合直播、语音聊天等实时场景。
支持 NVIDIA CUDA 与 DirectML,自动检测并启用可用的 GPU,数秒内完成模型加载并进入就绪状态。
扩散步数、相似度、清晰度、温度、音高、噪声门限等 8 项核心参数均可实时调整,精细控制输出效果。
便携版免安装,下载解压即可运行。内置完整的 Python 运行时与所有预训练模型,无需配置环境。
采用先进的 Conditional Flow Matching 扩散模型与 BigVGAN 声码器,构建低延迟高质量的声音转换系统。
| 模型 | 用途 | 骨干网络 |
|---|---|---|
| CFM / DiT | Mel 频谱生成(核心扩散模型) | Diffusion Transformer, 13层 |
| CAMPPlus | 说话人风格编码 | DTDNN, 192维嵌入 |
| AstralQuantizer | 语音内容特征量化 | ConvNeXtV2 + BSQ |
| Whisper-small | 语义 Token 提取 | OpenAI Whisper |
| HuBERT-large-ll60k | SSL 声学特征提取 | Facebook HuBERT |
| BigVGAN | Mel 频谱到波形合成 | NVIDIA BigVGAN v2 |
| Silero VAD | 实时语音活动检测 | Silero 轻量 VAD |
| NaiveTransformer | 自回归长度调节 | 12层 / 768维 / 12头 |
| 参数 | 范围 | 说明 |
|---|---|---|
| 扩散步数 (Steps) | 4 - 32 | 步数越大质量越高,步数越小延迟越低;默认 8 步 |
| 相似度 (Similarity) | 0.0 - 1.0 | 输出与目标音色的相似程度,值越高越接近参考音色 |
| 清晰度 (Clarity) | 0.0 - 1.0 | 输出音频的清晰度与稳定性控制 |
| 温度 (Temperature) | 0.1 - 2.0+ | 控制生成随机性,低温更稳定,高温更多变化 |
| 音高 (Pitch) | -12 - +12 | 半音为单位调节输出音高,可升高或降低一个八度 |
| 预上下文 (Pre-context) | 0.05 - 0.5s | 语音起始前的回溯音频长度 |
| 停顿缓冲 (Pause Buffer) | 0.1 - 1.5s | 判定说话结束前的静音等待时长 |
| 噪声门限 (Noise Gate) | 0.0 - 1.0 | 自适应环境噪声过滤强度 |
内置 Silero 语音活动检测,自动识别说话起止,无需手动控制录音开关。自适应环境噪声校准,嘈杂环境也能稳定工作。
支持添加、切换、删除参考音色。将目标说话人的 WAV 文件放入 voices 目录即可注册为新音色,一键切换。
内置 30 秒环形录音缓冲区,可随时回放刚才的转换结果,方便检查效果。支持导出为 WAV 格式。
将目标说话人的 WAV 音频文件(3-10 秒清晰干声)放入 voices 目录。
双击运行,软件自动加载模型并初始化音频设备,数秒内进入就绪状态。
选择目标音色,点击开始,对着麦克风说话即可实时听到转换后的声音。
便携版免安装,下载解压即可使用。内置全部预训练模型与 Python 运行时。
当前版本:1.0.1 | 文件大小:约 2.5 GB(含模型)| 支持 Windows 10/11 64-bit