公众号
关注微信公众号
移动端
创头条企服版APP

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题,看谁的表现更好?

12861
AI先锋官 |袁博 杨文 2023-06-09 17:03 抢发第一评

作者|杨文 袁博

编辑|六耳

来源|AI先锋官

高考已经接近尾声,小编先预祝各位考生金榜题名,前程似锦。此次高考不仅是各位考生们的大考,也是各家AI大模型之间的暗中较量。

之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时,我们也非常好奇它们的数学能力到底如何?

我们在今年的高考数学I卷中共挑选了13道题(其中选择题8道、填空题2道、解答题3道),共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型,其中GPT-4得分最高为36分,讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。

微信图片_20230609165849.png

一、选择题

测试题目:单选题5道、多选题3道。

选择题得分:GPT-4:19分;文心一言:22分;通义千问:29分;讯飞星火:9分。

微信图片_20230609154249.png

答题过程描述:在解答选择题的时候,四个大模型表现都较其它题型要好。其中,通义千问答对了全部5个单选题,不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”?文心一言在解答前两道选择题时,都是一遍对。

然而,讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它,它依旧坚持选择错误答案,一副死犟死犟的范儿。

二、填空题

测试题目:2道

640 (8).jpg

填空题得分:GPT-4:5分;文心一言:0分;通义千问:0分;讯飞星火:5分。

微信图片_20230609154230.png

答题过程描述在填空题方面,四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。

在通义千问答题过程中,小编发现它还很固执。比如,在解答第13题时,我们让它做了不下10遍,无一次正确。甚至,通义千问还表示:“并不想考虑每类至少选修1门的限制”,这种“犟”劲儿有点让人哭笑不得。

三、解答题

测试题目:3道

得分:GPT-4:12分、文心一言:0分、通义千问:0分、讯飞星火:5分。

微信图片_20230609153248.png

答题过程描述:在解答题方面,四个大模型的表现都很一般,出现胡编乱造的情况,甚至一度让自己陷入死循环。

相对而言,GPT-4更胜一筹,基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没,全部答错。

您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。

声明:本文由AI先锋官企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
ChatGPT、文心一言、通义千问、讯飞星火做高考数学题,看谁的表现更好?
打赏一下 0
喜欢这篇 9
评论一下 0
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
阿里云创新中心
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP