问题描述
目前大模型对一些需要专业能力的场景上还有欠缺,但在通用的能力上确实能够节省一些人力成本。接下来我们会以小学、中学、大学不同阶段的数学题目,来检验下大模型的解题能力。模型使用的是阿里的qwen-vl-max多模态大模型,根据用户上传的题目照片或截图进行解体。
1、小学数学题

大模型给出的回答如下:

这道题目是能够准确解答的。

多模态的大模型给出的回答如下:

回答错误。
我们在尝试用qwen-max来解题:

更加离谱。
2、高中数学题

多模态大模型回答如下:

又回答错误。
2、考验数学题

多模态大模型回答如下

这道题回答是正确的,再来一道试试。

大模型回答如下:

又回答正确了,再来一道看看。

大模型的答案如下:

回答错误了。
结论:
多模态大模型对于数学题的解答效果不太好,具有不确定性,无法在实际场景中使用。如果把这些题目送给大模型微调,不知道能不能提升解题能力。
本想基于多模态大模型做一个解题小程序,看来技术上是不可行的。


