报料注册登录

IT

互联网

程序员

大数据

AI

游戏

运维

软件

其他

GPT-5.2科研题得分仅25%！AI的聪明竟是假象，深度推理惨不忍睹？

作者：佚名时间：2025-12-28 15:10

字号

FrontierScience是什么

FrontierScience是OpenAI推出的科学AI能力评估基准，专门测试大模型在物理、化学、生物领域的专家级推理能力。包含两个子集：奥林匹克赛道（100道竞赛级短答题）和研究赛道（60道博士级开放任务），由国际奥赛奖牌得主和在职科学家设计。测试结果显示，GPT-5.2在竞赛题上得分77%，但科研题仅25%，暴露出AI在长期推理和假设验证方面的不足。基准填补了传统科学测试的空白，强调深度推理而非简单知识检索，为AI在科研中的应用潜力提供了量化参考。

FrontierScience

FrontierScience的主要功能

量化模型表现：基准通过独立子集采样和多次采样取平均值的方式，减少偶然性波动，确保评估的稳定性和可重复性。在评分方式上，Olympiad部分基于答案等价性判定，允许一定误差范围内的数值近似和表达式变换；Research部分则将科研推理过程拆解为多个可核查的关键环节，逐项对照评分标准进行评分。

确定改进方向：FrontierScience为AI模型在科学推理领域的表现提供了“上游”参考点，帮助研究人员观察模型的成功与不足，并确定未来的改进方向。揭示了AI在结构化推理任务中的优势，以及在开放式思维和真实科研任务中的不足，为模型的进一步发展提供了明确的指导。

FrontierScience的技术原理

评分机制：FrontierScience针对两类任务的不同特性，分别设计了可自动执行的评估策略：

评测流程：FrontierScience在评测过程中，所有模型均禁用联网功能，确保模型输出仅基于其内部知识和推理能力。为减少偶然性波动，研究团队对两个子集采用多次独立采样并取平均值的方式进行统计。

问题筛选与审核：为确保问题的原创性和严谨性，研究团队在内部模型测试阶段对题目进行了筛选，剔除已被现有模型轻易解决的问题。训练任务总计会经历创建、审核、解决和修订4阶段，独立专家会相互审核各自的任务，以确保其符合标准。

FrontierScience的项目地址

FrontierScience的应用场景

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>GPT-5.2科研题得分仅25%！AI的聪明竟是假象，深度推

继续阅读

谷歌视频编辑平台Vids新功能全员开放，包括AI语音配音、去除冗余口语、AI 图像编辑等

Recraft AI竟然免费商用！设计师的终极神器你还没用上？

AI迎来统一接口革命！MCP协议如何像USB-C一样改变整个行业？

热新闻

7天 30天 1年

推荐

游戏界传奇使命召唤之父文斯·赞佩拉车祸离世，太痛心

虎牙直播三角洲行动赛事收官！Q9战队绝地翻盘，燃爆全民热情

清融科技完成数千万元天使轮融资，打破国外技术封锁

哇塞！复旦和小红书联手搞的InstanceAssemble，啥来头？

Alibaba Cloud Linux镜像版本大揭秘，优势太猛了

2025年全球智能手机出货量将增3.3%，苹果有望超三星成全球第一

Omdia观察：欧洲发起反击，打造主权NTN领军企业

千年古镇注入电竞基因：濮院以“电竞节”重塑文旅消费新场景

关于我们联系我们免责声明隐私政策友情链接

本站所有内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议 | 蜀ICP备2025167749号-1

川公网安备51162302000271号

SiteMap