峰哥 GPT-SoVITS 语音模型

1. 模型简介

这是一个基于 GPT-SoVITS v2Pro 训练的单说话人中文语音模型。 本仓库仅提供已训练完成的权重文件,用于技术交流、学习与效果复现测试。

官方项目地址:

【声明】: 本人明确知道这属于是典型的“烂活旧整”范畴

效果预览 (Audio Preview):可以试听仓库中附带的演示音频文件:峰哥聊发展中国家.wav

  • 效果点评: 整体的口音细节与音色还原度非常不错,能够抓到峰哥说话的精髓。
  • 优化建议: 演示音频中存在经典的“电音”或机械感。在本地实际部署后,完全可以通过微调下方推荐的“推理超参数” 来进一步优化,获得更自然的效果。

2. 关于数据集与训练初衷 (Dataset & Motivation)

  • 数据规模 (Duration): 约 95 分钟(1.6 小时)有效语音数据。
  • 数据来源 (Source): 采集自 Bilibili 峰哥直播切片(非正式录播视频,故原始素材带有典型的直播录像音质特征,并未进行专门的降噪)。
  • 训练初衷 (Motivation): 本模型受启发于李宏毅老师 2025 春季《生成式 AI》课程。课程提到:在高质量小数据集下进行微调(Fine-tuning),模型依然能爆发出强大的威力。因此,本次训练的核心目标旨在验证 GPT-SoVITS 在“较小数据量 + 日常直播音质”条件下的可用音色复现与泛化能力
  • 【数据声明】 为保护原始音频版权及相关人物权益,本仓库不公开、不提供原始音频数据集及清洗工程文件,仅分享模型权重用于技术交流验证。

3. 模型规格 (Model Specifications)

  • 适用框架:GPT-SoVITS (v2Pro)
  • 语言 (Language):zh(中文)
  • SoVITS 采样率:32000 Hz
  • SoVITS 训练参数:epochs=35batch_size=12info=34epoch_4148iteration
  • GPT 训练参数:epochs=20batch_size=12precision=16-mixedinfo=GPT-e20

4. 模型文件 (Repository Files)

  • feng_voice_4090_e34_s4148.pth(SoVITS)
  • feng_voice_4090-e20.ckpt(GPT)

5. 推荐推理参数 (复现基线)

  • Prompt language:中文
  • Text language:中文
  • Text split:凑四句一切
  • Speed:0.95
  • Pause seconds:0.3
  • Top-k:5
  • Top-p:1.0
  • Temperature:1.0

6. 如何使用 (Usage)

本仓库仅提供权重文件,不包含完整运行环境。

  1. 准备官方 GPT-SoVITS 环境。
  2. 在 GPT-SoVITS 根目录手动创建权重目录:
    • SoVITS_weights_v2Pro/
    • GPT_weights_v2Pro/
  3. 将下载的两个文件分别放入:
    • feng_voice_4090_e34_s4148.pth -> SoVITS_weights_v2Pro/
    • feng_voice_4090-e20.ckpt -> GPT_weights_v2Pro/

示例(在 GPT-SoVITS 根目录执行):

mkdir -p SoVITS_weights_v2Pro GPT_weights_v2Pro
cp /path/to/feng_voice_4090_e34_s4148.pth SoVITS_weights_v2Pro/
cp /path/to/feng_voice_4090-e20.ckpt GPT_weights_v2Pro/
  1. 启动:python webui.py
  2. 在推理页面选择:
    • GPT:GPT_weights_v2Pro/feng_voice_4090-e20.ckpt
    • SoVITS:SoVITS_weights_v2Pro/feng_voice_4090_e34_s4148.pth
  3. 推理时请提供两项参考信息:
    • 参考音频 :merged_000008.wav (在仓库中)
    • 与该音频内容对应的参考文本 :“你觉得他算是个成功的网红吗,毫无疑问呐”
  4. 按“推荐推理参数”先跑基线,再做小范围微调。

7. 免责声明 (Disclaimer)

下载或使用本仓库模型文件,即视为同意以下条款:

  1. 严禁将本模型及其生成音频用于违法违规用途。
  2. 严禁用于诈骗、伪造、诽谤、人身攻击或其他侵权行为。
  3. 使用者对其生成内容及后果承担全部责任。
  4. 如用于商业用途,请先自行确认数据、声音及相关权利授权是否合法合规。
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support