Unimo IndexTTS2情绪描述文本解析优化模型

Unimo 是一个专门为优化IndexTTS2而训练的自然语言情绪向量转换模型,基于Qwen3-0.6B和Qwen2.5-0.5B模型微调。

先看使用效果视频:https://www.bilibili.com/video/BV1FV6qB6E9N

目的是为了优化原版IndexTTS2内置的情感文本描述解析模型,提升解析情绪文本的准确度。

本模型加强了对情绪描述文本的程度词的理解,将其精准解析为 8 维情感特征向量,以供IndexTTS2生成情绪准确的音频。

这个模型是为了解决IndexTTS2官方源码内置的Qwen情绪文本解析模型识别情绪不精确的问题而训练的,对情绪描述文本的程度词等方面进行了优化。

模型产生的情绪向量可直接给IndexTTS2生成的时候使用。IndexTTS2配合本模型使用,产生的音频能够更加符合情绪描述。

(后续可能会继续训练一个情绪上下文模型,能够根据情绪的上下文(如上一句话的情绪向量)以及当前的情绪描述,综合信息后生成更加自然的情绪,使情绪的变化更加丝滑流畅)

输入情绪描述文本,模型即可输出情绪向量,向量可直接给IndexTTS2使用。 目前只做了控制台交互界面和对比测试界面,有需要的可以根据py文件自己编写api调用逻辑。

部署方法:

安装依赖:

python -m venv venv
source venv/bin/activate  # Linux
.\venv\Scripts\activate   # Windows
pip install -r requirements.txt

有两种模型可选(Qwen3 0.6B、 Qwen2.5 0.5B),请根据情况自行选择。

启动交互界面:

python Unimo_interactive_qwen2.5
python Unimo_interactive_qwen3.py

image

启动对比测试界面(和原版内置的情绪文本解析模型进行对比,IndexTTS2服务器使用CNB云原生项目:https://cnb.cool/ConyStudio/index-tts-v2 ):

python Unimo_test_qwen2.5.py
python Unimo_test_qwen3.py

image

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sdsds222moyu/Unimo-indexTTS2-emotext

Base model

Qwen/Qwen2.5-0.5B
Finetuned
(638)
this model