纯小白如何使用该数据集进行微调和DPO?
#2
by
bdf3p4
- opened
大佬,我找到一个可以可视化给大多数开源模型做微调的平台fireworks,它里面要求的数据集说要.jsonl结尾的,大概长这样:
{
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is the capital of France?"},
{"role": "assistant", "content": "Paris."}
]
}
{
"messages": [
{"role": "user", "content": "What is 1+1?"},
{"role": "assistant", "content": "2", "weight": 0},
{"role": "user", "content": "Now what is 2+2?"},
{"role": "assistant", "content": "4"}
]
}
谷歌百度搜了下发现没有可以改为这个格式的,所以要怎么才能使用pth的数据集呀。
ps:本人纯小白,不懂任何模型训练的具体逻辑和代码实现
RWKV目前没有DPO实现,我很早就和微调库的作者提过需求,不过没有被采纳
也不对,有个日本人的,不过似乎不稳定