分享好友 资讯首页 频道列表

六款AI大模型高考数学PK:AI界“高考状元”揭晓,技术突破与争议并存

2025-06-12 09:26150

2025年高考刚落幕,一场由字节豆包、腾讯元宝、DeepSeek、阿里通义、百度文心及OpenAI o3等六大顶尖AI大模型参与的“AI高考数学擂台赛”便引发广泛关注。这场由多家科技媒体与专业教师团队联合发起的测试,以2025年新课标Ⅰ卷数学客观题为考题,满分73分,涵盖8道单选题、3道多选题及3道填空题,结果却让不少人直呼“意外”。

一、AI“高考状元”诞生:豆包与元宝并列第一

在严格遵循高考判分标准的测试中,字节跳动的豆包与腾讯元宝(T1)以68分并列第一,仅在第6道单选题上失分。两者在单选题环节均斩获35分,多选题三题全对,展现出强大的稳定性。而DeepSeek以63分位列第三,尽管在单选题因图片识别问题丢分,但填空题表现优异,与豆包、元宝、通义一同斩获满分。

令人意外的是,OpenAI o3仅获34分垫底,正确率不足50%,甚至在“送分题”上出现逻辑断裂,答案与选项完全不符。这一结果引发网友质疑:o3的网页版存在“降智”现象,测试环境是否公平?

二、争议焦点:测试标准与模型特性

  1. 测试方式争议:

    • 部分测试团队采用OCR技术将图片转换为文本输入,但DeepSeek作为非多模态模型,被要求直接解读图表,导致其因“对图表视而不见”被扣分。

    • 网友指出,数学题应使用LaTeX等标准化公式排版语言测评,而非简单截图,以避免OCR误差。

  2. 模型特性差异:

    • o3的“降智”现象被归因于网页端限制,而其学术版性能未被充分体现。

    • 大模型在多选题中表现参差不齐,部分模型因“不适应多选题规则”全军覆没,暴露出对复杂题型的理解短板。

  3. 评分标准争议:

    • 主观题评分依赖人类教师,但AI的“思考路径”与人类不同,扣分标准是否适用存疑。例如,文心X1在填空题中因“画蛇添足”加了一句“通常取正值”被扣分,但这一步骤在数学推理中未必错误。

三、技术突破:AI数学能力显著提升

尽管争议不断,但测试结果仍揭示了AI技术的飞跃:

  1. 推理能力质变:

    • 除o3外,其他五款模型均突破及格线,豆包与元宝正确率达93%,远超去年大模型“基础计算错误频发”的水平。

    • 大模型在遇到难题时不再固执己见,而是会推倒重来、验证步骤,甚至系统性展示推理链路。

  2. 国产模型崛起:

    • DeepSeek以143分成为“数学状元”,讯飞星火以141分紧随其后,两者均突破140分,达到“尖子生”标准。

    • 讯飞星火在教育领域深耕多年,其70B量级模型在国产算力下实现性能超越,展现出“小而精”的技术路线优势。

  3. 多模态能力短板:

    • 涉及图表的题目仍是AI的“软肋”,DeepSeek因图片识别问题丢分,暴露出视觉-语言模型在复杂场景下的局限性。

四、未来展望:AI能否成为真正的“状元”?

尽管AI在高考数学中表现亮眼,但距离“人类状元”仍有差距:

  1. 时间压力与心理素质:

    • 高考不仅是知识考核,更是时间管理与心理素质的较量,而AI无需考虑这些因素。

  2. 主观题与创造力:

    • AI在作文等主观题中虽能生成流畅文本,但缺乏人类的思想深度与情感共鸣。例如,豆包的作文被评价为“逻辑清晰但缺乏灵魂”。

  3. 技术迭代方向:

    • 未来AI需加强多模态理解、复杂推理及自适应学习能力,尤其是在图形处理、条件敏感度等方面。

结语:AI高考,一场技术与人性的对话

这场AI“高考数学擂台赛”不仅是一次技术实力的较量,更引发了对教育本质的思考:当AI能轻松答对数学题时,人类教育的价值何在?或许,正如科大讯飞董事长刘庆峰所言:“AI不是要取代人类,而是要成为教育的助手,让每个孩子找到适合自己的学习路径。”

未来,AI与人类的“高考之战”仍将继续,而真正的赢家,或许是那些能将技术与人性的光芒融合的教育者。

免责声明:

本网转载并注明自其它来源(非智能装备网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。如涉及作品内容、版权等问题,请在发布之日起十五天内与本网联系,否则视为放弃相关权利。

反对 0
举报 0
收藏 0
打赏 0
评论 0

相关资讯