峰哥 GPT-SoVITS 语音模型
1. 模型简介
这是一个基于 GPT-SoVITS v2Pro 训练的单说话人中文语音模型。 本仓库仅提供已训练完成的权重文件,用于技术交流、学习与效果复现测试。
官方项目地址:
【声明】: 本人明确知道这属于是典型的“烂活旧整”范畴
效果预览 (Audio Preview):可以试听仓库中附带的演示音频文件:峰哥聊发展中国家.wav。
- 效果点评: 整体的口音细节与音色还原度非常不错,能够抓到峰哥说话的精髓。
- 优化建议: 演示音频中存在经典的“电音”或机械感。在本地实际部署后,完全可以通过微调下方推荐的“推理超参数” 来进一步优化,获得更自然的效果。
2. 关于数据集与训练初衷 (Dataset & Motivation)
- 数据规模 (Duration): 约 95 分钟(1.6 小时)有效语音数据。
- 数据来源 (Source): 采集自 Bilibili 峰哥直播切片(非正式录播视频,故原始素材带有典型的直播录像音质特征,并未进行专门的降噪)。
- 训练初衷 (Motivation): 本模型受启发于李宏毅老师 2025 春季《生成式 AI》课程。课程提到:在高质量小数据集下进行微调(Fine-tuning),模型依然能爆发出强大的威力。因此,本次训练的核心目标旨在验证 GPT-SoVITS 在“较小数据量 + 日常直播音质”条件下的可用音色复现与泛化能力。
- 【数据声明】 为保护原始音频版权及相关人物权益,本仓库不公开、不提供原始音频数据集及清洗工程文件,仅分享模型权重用于技术交流验证。
3. 模型规格 (Model Specifications)
- 适用框架:
GPT-SoVITS (v2Pro) - 语言 (Language):
zh(中文) - SoVITS 采样率:
32000 Hz - SoVITS 训练参数:
epochs=35,batch_size=12,info=34epoch_4148iteration - GPT 训练参数:
epochs=20,batch_size=12,precision=16-mixed,info=GPT-e20
4. 模型文件 (Repository Files)
feng_voice_4090_e34_s4148.pth(SoVITS)feng_voice_4090-e20.ckpt(GPT)
5. 推荐推理参数 (复现基线)
- Prompt language:
中文 - Text language:
中文 - Text split:
凑四句一切 - Speed:
0.95 - Pause seconds:
0.3 - Top-k:
5 - Top-p:
1.0 - Temperature:
1.0
6. 如何使用 (Usage)
本仓库仅提供权重文件,不包含完整运行环境。
- 准备官方 GPT-SoVITS 环境。
- 在 GPT-SoVITS 根目录手动创建权重目录:
SoVITS_weights_v2Pro/GPT_weights_v2Pro/
- 将下载的两个文件分别放入:
feng_voice_4090_e34_s4148.pth->SoVITS_weights_v2Pro/feng_voice_4090-e20.ckpt->GPT_weights_v2Pro/
示例(在 GPT-SoVITS 根目录执行):
mkdir -p SoVITS_weights_v2Pro GPT_weights_v2Pro
cp /path/to/feng_voice_4090_e34_s4148.pth SoVITS_weights_v2Pro/
cp /path/to/feng_voice_4090-e20.ckpt GPT_weights_v2Pro/
- 启动:
python webui.py - 在推理页面选择:
- GPT:
GPT_weights_v2Pro/feng_voice_4090-e20.ckpt - SoVITS:
SoVITS_weights_v2Pro/feng_voice_4090_e34_s4148.pth
- GPT:
- 推理时请提供两项参考信息:
- 参考音频 :merged_000008.wav (在仓库中)
- 与该音频内容对应的参考文本 :“你觉得他算是个成功的网红吗,毫无疑问呐”
- 按“推荐推理参数”先跑基线,再做小范围微调。
7. 免责声明 (Disclaimer)
下载或使用本仓库模型文件,即视为同意以下条款:
- 严禁将本模型及其生成音频用于违法违规用途。
- 严禁用于诈骗、伪造、诽谤、人身攻击或其他侵权行为。
- 使用者对其生成内容及后果承担全部责任。
- 如用于商业用途,请先自行确认数据、声音及相关权利授权是否合法合规。