导读 苏喻博士,高级工程师,合肥人工智能研究院副研究员,原科大讯飞AI 教育研究院副院长,中国科学技术大学博士后,安徽省青少年信息学教育专委会秘书长,CCF 大专委-通讯委员,合肥市 D 类人才。苏喻博士一直在智慧教育方向深耕,聚焦于青少年编程。面对数据稀疏和学习效果延时性问题,苏喻博士团队在教育领域大模型的研发中,技术上有如下三个方面的亮点:1)通过对偶数据的模型训练与评估和历史经验注入实现青少年编程垂类大语言模型;2)基于分层知识图谱和推理 prompt 生成实现基于小知识的大模型学习;3)融合知识追踪模型和大模型仿真的强化认知推荐。产品应用上,苏喻博士团队开发了青蛙编程平台、AI 编程学习机以及数字人 AI 录播课平台等。
1. 智慧教育背景及挑战
2. 教育领域大模型
3. 产品案例
4. 思考与展望
5. 问答环节
分享嘉宾|苏喻博士 合肥人工智能研究院 副研究员
编辑整理|王帅 金山云
内容校对|李瑶
出品社区|DataFun
01
背景及挑战
1. 背景

(1)个性化学习


(2)科大讯飞产品

-
图谱的每一个节点代表知识点或知识点的组合 -
边表征了知识点的前后继承关系 -
颜色代表学习程度,如绿色代表学得好,红色代表学得差,黄色代表学得一般。

(3)青少年编程


-
代码修复
-
代码提示
-
辅学指引
2. 挑战
(1)数据稀疏

(2)学习延时性

教育领域大模型

1. 编程垂类大语言模型

(1)数据获取
(2)模型训练(Fine Tuning)

(3)基于历史经验的知识注入

-
高质量数据积累:现实中学生写出的错误代码,基于报错信息修正后得到正确答案,这一系列真实数据作为历史经验持续注入知识库中; -
嵌入向量库:将上述数据放入编程垂类大模型中,把大模型作为编码器,将其转为向量存放于一个嵌入向量库中; -
输入信息增强:通过在线编译器,将新的学生写出的错误代码生成报错信息; -
筛选排序,找到协同数据:在编码后的知识库当中检索与新学生的嵌入向量(原始问题)类似的问题,生成一个极为复杂的 prompt; -
请求修复:将上述包含相似错误解决历史经验的 prompt 输入到大语言模型中,请求修复,提高修复的准确率。

2. 小知识学习

-
知识查找:将二分查找问题的关键点抽取出来,并映射到图谱上,找到所有相关的分层图谱,建立相关性连接; -
推理图构建:在局部知识图谱上进行简单推理; -
知识推理:基于图将其变成一个 prompt,并放入大模型中;

-
未调整前的 Prompt:直接问循环累加怎么做,大模型给到的答案较敷衍,无法解决学生的问题。 -
调整后的 Prompt:基于推理图,给到更精准的 Prompt。 -
基于 GPT4 进行回答评分,调整前基本 10 道题有 6 道题答得不错,调整后 10道题会有 8 道题回答较好,有了大幅提升。

3. 强化认知推荐


-
给出状态,如推荐一道题后,学生状态发生哪些变化。 -
推荐一道题后,基于领域的函数,得出其即时的收益。
-
黄色:待学习的知识点 -
蓝色:推荐学习知识点 -
绿色:已掌握知识点 -
红色:未掌握知识点

产品案例
1. 青蛙编程平台

2. AI 编程学习机

3. 智能云端编译器

-
更轻便:云端免安装,降低对硬件的要求 -
更智能:内置青少编程大模型,可智能纠错 -
更专业:内置各种编程环境,减少出错的问题 -
更简单:编译器汉化,降低调试的门槛。

-
虚拟老师可实现针对学生的问题,实时回答,提高互动性。 -
根据学生的历史信息以及录播课的情况、编程情况,可生成个性化编程题目,提高学习的趣味性。
如下为一段示例:

思考与展望
1. 大模型 VS.“小模型”
-
高性能计算机、专用加速器(如 GPU、TPU 等)。 -
大量的存储空间。
-
通常达到千亿级别的参数才能实现特殊能力的涌现,不易定制。 -
垂类大模型做完后,到实现上线和 B 端机仍有很多工作要做。
-
利用网络剪枝、向量量化、低秩近似等技术减少大模型的参数。 -
利用知识蒸馏等技术将大模型的特殊能力迁移到小规模网络参数的模型。


问答环节


