silk-road/chinese-dolly-15k
Viewer
•
Updated
•
15k
•
24
•
23
指令微调数据
Note Chinese-Dolly-15k是骆驼团队翻译的Dolly instruction数据集 最后49条数据因为翻译长度超过限制,没有翻译成功,建议删除或者手动翻译一下 原来的数据集'databricks/databricks-dolly-15k'是由数千名Databricks员工根据InstructGPT论文中概述的几种行为类别生成的遵循指示记录的开源数据集。这几个行为类别包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和摘要。
Note 角色扮演,支持32人物,54K的数据集
Note 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万
Note 包含约50万条由BELLE项目生成的中文指令数据。
Note 包含约80万条由BELLE项目生成的用户与助手的多轮对话。
Note 包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令,总计 191k 数据