主页 - AI -

GPT-5.2科研题得分仅25%!AI的聪明竟是假象,深度推理惨不忍睹?

作者:佚名 时间:2025-12-28 15:10

字号

FrontierScience是什么

FrontierScience是OpenAI推出的科学AI能力评估基准,专门测试大模型在物理、化学、生物领域的专家级推理能力。包含两个子集:奥林匹克赛道(100道竞赛级短答题)和研究赛道(60道博士级开放任务),由国际奥赛奖牌得主和在职科学家设计。测试结果显示,GPT-5.2在竞赛题上得分77%,但科研题仅25%,暴露出AI在长期推理和假设验证方面的不足。基准填补了传统科学测试的空白,强调深度推理而非简单知识检索,为AI在科研中的应用潜力提供了量化参考。

FrontierScience

FrontierScience的主要功能

  • 量化模型表现:基准通过独立子集采样和多次采样取平均值的方式,减少偶然性波动,确保评估的稳定性和可重复性。在评分方式上,Olympiad部分基于答案等价性判定,允许一定误差范围内的数值近似和表达式变换;Research部分则将科研推理过程拆解为多个可核查的关键环节,逐项对照评分标准进行评分。
  • 确定改进方向:FrontierScience为AI模型在科学推理领域的表现提供了“上游”参考点,帮助研究人员观察模型的成功与不足,并确定未来的改进方向。揭示了AI在结构化推理任务中的优势,以及在开放式思维和真实科研任务中的不足,为模型的进一步发展提供了明确的指导。
  • FrontierScience的技术原理

  • 评分机制:FrontierScience针对两类任务的不同特性,分别设计了可自动执行的评估策略:
  • 评测流程:FrontierScience在评测过程中,所有模型均禁用联网功能,确保模型输出仅基于其内部知识和推理能力。为减少偶然性波动,研究团队对两个子集采用多次独立采样并取平均值的方式进行统计。
  • 问题筛选与审核:为确保问题的原创性和严谨性,研究团队在内部模型测试阶段对题目进行了筛选,剔除已被现有模型轻易解决的问题。训练任务总计会经历创建、审核、解决和修订4阶段,独立专家会相互审核各自的任务,以确保其符合标准。
  • FrontierScience的项目地址

    FrontierScience的应用场景

    责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
    继续阅读
    热新闻
    推荐
    关于我们联系我们免责声明隐私政策 友情链接