六款AI大模型高考数学PK：AI界“高考状元”揭晓，技术突破与争议并存-人工智能-资讯-智能装备网

2025年高考刚落幕，一场由字节豆包、腾讯元宝、DeepSeek、阿里通义、百度文心及OpenAI o3等六大顶尖AI大模型参与的“AI高考数学擂台赛”便引发广泛关注。这场由多家科技媒体与专业教师团队联合发起的测试，以2025年新课标Ⅰ卷数学客观题为考题，满分73分，涵盖8道单选题、3道多选题及3道填空题，结果却让不少人直呼“意外”。

一、AI“高考状元”诞生：豆包与元宝并列第一

在严格遵循高考判分标准的测试中，字节跳动的豆包与腾讯元宝（T1）以68分并列第一，仅在第6道单选题上失分。两者在单选题环节均斩获35分，多选题三题全对，展现出强大的稳定性。而DeepSeek以63分位列第三，尽管在单选题因图片识别问题丢分，但填空题表现优异，与豆包、元宝、通义一同斩获满分。

令人意外的是，OpenAI o3仅获34分垫底，正确率不足50%，甚至在“送分题”上出现逻辑断裂，答案与选项完全不符。这一结果引发网友质疑：o3的网页版存在“降智”现象，测试环境是否公平？

二、争议焦点：测试标准与模型特性

测试方式争议：

部分测试团队采用OCR技术将图片转换为文本输入，但DeepSeek作为非多模态模型，被要求直接解读图表，导致其因“对图表视而不见”被扣分。
网友指出，数学题应使用LaTeX等标准化公式排版语言测评，而非简单截图，以避免OCR误差。

模型特性差异：

o3的“降智”现象被归因于网页端限制，而其学术版性能未被充分体现。
大模型在多选题中表现参差不齐，部分模型因“不适应多选题规则”全军覆没，暴露出对复杂题型的理解短板。

评分标准争议：

主观题评分依赖人类教师，但AI的“思考路径”与人类不同，扣分标准是否适用存疑。例如，文心X1在填空题中因“画蛇添足”加了一句“通常取正值”被扣分，但这一步骤在数学推理中未必错误。

三、技术突破：AI数学能力显著提升

尽管争议不断，但测试结果仍揭示了AI技术的飞跃：

推理能力质变：

除o3外，其他五款模型均突破及格线，豆包与元宝正确率达93%，远超去年大模型“基础计算错误频发”的水平。
大模型在遇到难题时不再固执己见，而是会推倒重来、验证步骤，甚至系统性展示推理链路。

国产模型崛起：

DeepSeek以143分成为“数学状元”，讯飞星火以141分紧随其后，两者均突破140分，达到“尖子生”标准。
讯飞星火在教育领域深耕多年，其70B量级模型在国产算力下实现性能超越，展现出“小而精”的技术路线优势。

多模态能力短板：

涉及图表的题目仍是AI的“软肋”，DeepSeek因图片识别问题丢分，暴露出视觉-语言模型在复杂场景下的局限性。

四、未来展望：AI能否成为真正的“状元”？

尽管AI在高考数学中表现亮眼，但距离“人类状元”仍有差距：

时间压力与心理素质：

高考不仅是知识考核，更是时间管理与心理素质的较量，而AI无需考虑这些因素。

主观题与创造力：

AI在作文等主观题中虽能生成流畅文本，但缺乏人类的思想深度与情感共鸣。例如，豆包的作文被评价为“逻辑清晰但缺乏灵魂”。

技术迭代方向：

未来AI需加强多模态理解、复杂推理及自适应学习能力，尤其是在图形处理、条件敏感度等方面。

结语：AI高考，一场技术与人性的对话

这场AI“高考数学擂台赛”不仅是一次技术实力的较量，更引发了对教育本质的思考：当AI能轻松答对数学题时，人类教育的价值何在？或许，正如科大讯飞董事长刘庆峰所言：“AI不是要取代人类，而是要成为教育的助手，让每个孩子找到适合自己的学习路径。”

未来，AI与人类的“高考之战”仍将继续，而真正的赢家，或许是那些能将技术与人性的光芒融合的教育者。

六款AI大模型高考数学PK：AI界“高考状元”揭晓，技术突破与争议并存

一、AI“高考状元”诞生：豆包与元宝并列第一

二、争议焦点：测试标准与模型特性

三、技术突破：AI数学能力显著提升

四、未来展望：AI能否成为真正的“状元”？

结语：AI高考，一场技术与人性的对话

免责声明：

相关资讯