2025年高考刚落幕,一场由字节豆包、腾讯元宝、DeepSeek、阿里通义、百度文心及OpenAI o3等六大顶尖AI大模型参与的“AI高考数学擂台赛”便引发广泛关注。这场由多家科技媒体与专业教师团队联合发起的测试,以2025年新课标Ⅰ卷数学客观题为考题,满分73分,涵盖8道单选题、3道多选题及3道填空题,结果却让不少人直呼“意外”。
一、AI“高考状元”诞生:豆包与元宝并列第一
在严格遵循高考判分标准的测试中,字节跳动的豆包与腾讯元宝(T1)以68分并列第一,仅在第6道单选题上失分。两者在单选题环节均斩获35分,多选题三题全对,展现出强大的稳定性。而DeepSeek以63分位列第三,尽管在单选题因图片识别问题丢分,但填空题表现优异,与豆包、元宝、通义一同斩获满分。
令人意外的是,OpenAI o3仅获34分垫底,正确率不足50%,甚至在“送分题”上出现逻辑断裂,答案与选项完全不符。这一结果引发网友质疑:o3的网页版存在“降智”现象,测试环境是否公平?
二、争议焦点:测试标准与模型特性
测试方式争议:
部分测试团队采用OCR技术将图片转换为文本输入,但DeepSeek作为非多模态模型,被要求直接解读图表,导致其因“对图表视而不见”被扣分。
网友指出,数学题应使用LaTeX等标准化公式排版语言测评,而非简单截图,以避免OCR误差。
模型特性差异:
o3的“降智”现象被归因于网页端限制,而其学术版性能未被充分体现。
大模型在多选题中表现参差不齐,部分模型因“不适应多选题规则”全军覆没,暴露出对复杂题型的理解短板。
评分标准争议:
主观题评分依赖人类教师,但AI的“思考路径”与人类不同,扣分标准是否适用存疑。例如,文心X1在填空题中因“画蛇添足”加了一句“通常取正值”被扣分,但这一步骤在数学推理中未必错误。
三、技术突破:AI数学能力显著提升
尽管争议不断,但测试结果仍揭示了AI技术的飞跃:
推理能力质变:
除o3外,其他五款模型均突破及格线,豆包与元宝正确率达93%,远超去年大模型“基础计算错误频发”的水平。
大模型在遇到难题时不再固执己见,而是会推倒重来、验证步骤,甚至系统性展示推理链路。
国产模型崛起:
DeepSeek以143分成为“数学状元”,讯飞星火以141分紧随其后,两者均突破140分,达到“尖子生”标准。
讯飞星火在教育领域深耕多年,其70B量级模型在国产算力下实现性能超越,展现出“小而精”的技术路线优势。
多模态能力短板:
涉及图表的题目仍是AI的“软肋”,DeepSeek因图片识别问题丢分,暴露出视觉-语言模型在复杂场景下的局限性。
四、未来展望:AI能否成为真正的“状元”?
尽管AI在高考数学中表现亮眼,但距离“人类状元”仍有差距:
时间压力与心理素质:
高考不仅是知识考核,更是时间管理与心理素质的较量,而AI无需考虑这些因素。
主观题与创造力:
AI在作文等主观题中虽能生成流畅文本,但缺乏人类的思想深度与情感共鸣。例如,豆包的作文被评价为“逻辑清晰但缺乏灵魂”。
技术迭代方向:
未来AI需加强多模态理解、复杂推理及自适应学习能力,尤其是在图形处理、条件敏感度等方面。
结语:AI高考,一场技术与人性的对话
这场AI“高考数学擂台赛”不仅是一次技术实力的较量,更引发了对教育本质的思考:当AI能轻松答对数学题时,人类教育的价值何在?或许,正如科大讯飞董事长刘庆峰所言:“AI不是要取代人类,而是要成为教育的助手,让每个孩子找到适合自己的学习路径。”
未来,AI与人类的“高考之战”仍将继续,而真正的赢家,或许是那些能将技术与人性的光芒融合的教育者。