教你如何10分钟内批量制作上万条大模型微调数据集


上个月上线了【运维大模型课】,最近一直忙着整理讲义和录课,所以公众号文章发的都少了。

教你如何10分钟内批量制作上万条大模型微调数据集
课程目前已更新21小节,目前保持周更的频率。
教你如何10分钟内批量制作上万条大模型微调数据集
除了跟大家简单汇报下课程进度外,还想分享一个超赞的工具。我相信所有做大模型微调的朋友,一定会为如何制作数据集发愁,尤其是想把自己专属的文档(如word、txt等)转换成符合要求格式的数据集。
今天的主角就是这个开源的大模型微调数据集创建工具:Easy Dataset(https://github.com/ConardLi/easy-dataset),目前github上已有6.4k Star,而且它的增长速度非常快。
教你如何10分钟内批量制作上万条大模型微调数据集

作者不仅提供了多系统平台客户端,非常Nice

教你如何10分钟内批量制作上万条大模型微调数据集
而且还支持npm或者docker的形式部署在Linux服务器上。下面是我在windows系统上做了一个测试,效果还不错。
1)下载windows客户端
点击上面那个setup.exe,然后跳转到下载页面
教你如何10分钟内批量制作上万条大模型微调数据集
再点这个exe文件下载
2)安装客户端
这个不用多讲,大家都会,直接双击exe文件安装即可。
3)安装完,需要做一个简单的配置
先创建项目
教你如何10分钟内批量制作上万条大模型微调数据集
然后定义项目名字和描述
教你如何10分钟内批量制作上万条大模型微调数据集
模型这里可选的模型还是蛮多的,比如GPT-4o、DeepSeek、Grok等,也可以使用私有部署的大模型,我用的是DeepSeek(deepseek-chat),这里需要到deepseek官网申请一个apikey
教你如何10分钟内批量制作上万条大模型微调数据集
提示词配置比较关键,如果想生成比较符合你预期的数据集,就需要在提示词这里下点功夫了,我测试的时候直接留空了
教你如何10分钟内批量制作上万条大模型微调数据集
4)上传文献
教你如何10分钟内批量制作上万条大模型微调数据集
支持多个文件,由于大模型不能一下子处理太多文本,所以Easy Dataset会根据我们的设置来分割文件
教你如何10分钟内批量制作上万条大模型微调数据集
教你如何10分钟内批量制作上万条大模型微调数据集
5)生成问题
有了文本块之后,下面需要先生成一个一个的问题,基于问题再去生成对应的问答对儿。选中文本块之后,点击右侧的批量生成问题,即可自动生成问题。
教你如何10分钟内批量制作上万条大模型微调数据集
6)生成数据集
有了问题之后,就可以自动生成数据集了,点击上面的“问题管理”菜单
教你如何10分钟内批量制作上万条大模型微调数据集
选中你想要生成数据集的问题,然后再点击右上角的“批量构建数据集”即可自动生成数据集。
7)导出数据集
等数据集生成完毕之后,点击“数据集管理”菜单
教你如何10分钟内批量制作上万条大模型微调数据集
可以点击每一条数据集右侧的小眼睛查看具体的数据集内容
教你如何10分钟内批量制作上万条大模型微调数据集
可以看到,它为我们生成的数据集内容,有问题,有回答,也有思维链内容,这个数据集用来训练DeepSeek或者Qwen大模型都是非常合适的。
教你如何10分钟内批量制作上万条大模型微调数据集
选中你想要的数据集,然后点击右上角的“导出数据集”
教你如何10分钟内批量制作上万条大模型微调数据集
可以选择JSON、JSONL或者CSV格式,数据集风格默认是Alpaca,也可以自定义,这个主要取决你微调时用什么样的数据集。包括系统提示词也可以自定义。
总之,这个Easy Dataset体验还是非常不错的。
··············  END  ··············

Agent智能体Openclaw新闻资讯

OpenClaw 推出 ClawHub 中国镜像站,附中文界面,国内访问不再受限

2026-5-2 14:27:01

前沿技术提示词技巧新闻资讯

别再纠结用 Skill 还是 Subagent 了,这一篇讲透 Claude Code 的「分身术」

2026-5-2 14:37:20

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索