o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

作者:小菜 更新时间:2025-01-10 点击数:
简介:最终,数学家们提出了数百道原创题目,涵盖了 现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

接下来,为了评估大模型在FrontierMath问题上的表现,研究开发了一个框…

【千问解读】

一水 发自 凹非寺

量子位 | 公众号 QbitAI

让大模型集体吃瘪,数学题正确率通通不到2%!

获大神卡帕西力荐,大模型 新数学基准来势汹汹——

一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。

所以,新挑战者到底啥来头??

一打听,这个新数学基准名为 FrontierMath,由 Epoch AI这家非营利研究机构号召 陶哲轩在内的60多位顶尖数学家提出。

这群人这次铁了心要给AI上难度,直接 原创了数百道极具挑战性的数学问题——

从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。

这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说:

大模型们,至少需要再战个几年吧。

同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到大模型们“吃瘪”:

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准

FrontierMath:评估AI高级数学推理能力的新基准

今年以来,大语言模型(LLM)开始在各种数学benchmark上疯狂刷分,而且正确率动辄90%以上。

宣传看多了,人也麻了,于是纷纷反思——

一定是现在的基准测试“被污染了” (比如让AI在训练阶段提前学习基准测试中的问题)

对此,非营利研究机构Epoch AI看不下去了,于是直接联合60多位顶尖数学家 (共获得了14枚IMO金牌)推出FrontierMath。

这一新基准拥有 数百道大模型们之前没见过的数学题,而且难度颇高。

通常需要专业数学家花费数小时甚至数天的努力

一番实践检验下,果不其然,一众顶尖大模型纷纷折戟 (包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等)解题率均不足2%

而且即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,相关成功率仍然低于2%。

下面,我们具体介绍下FrontierMath。

这第一关主要解决数学题的原创性。

这群数学家们被要求按照 3个关键原则设计题目:

所有问题都是新的且未发表的,以防止数据污染;

解决方案是自动可验证的,从而实现高效的评估;

问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低;

除了出新题, 为了防止数据污染,机构还采取了其他措施。

比如为了最大限度地降低问题和解决方案在网上传播的风险,机构鼓励所有提交都通过安全、加密的渠道进行。

具体来说,机构采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密 (如加密文档)

当然也不完全依靠人力,为了进一步保证原创性,机构还通过抄袭检测工具Quetext和Copyscape对问题进行测试。

最终,数学家们提出了数百道原创题目,涵盖了 现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

其中数论和组合学最多,合计约占所有MSC2020 (数学学科分类系统2020版本)的34%。

接下来,为了评估大模型在FrontierMath问题上的表现,研究开发了一个框架。

简单说,这一框架具体执行任务的过程如下:

分析问题:模型首先分析给定的数学问题;

提出策略:模型提出可能的解决方案策略;

实施并执行代码:将这些策略转化为可执行的Python代码并自动执行;

接收反馈:从代码执行的结果中接收反馈,包括输出和错误消息;

改进方法:根据实验结果,模型会验证中间结果,测试猜想,并可能改进其推理过程以修正潜在的错误;

该框架支持两种提交方式:一种是模型可以直接给出问题的最终答案;另一种是,在提交最终答案之前,模型可以先通过代码执行进行实验,以验证其解决方案的有效性。

不过需要提醒,在提交最终答案时, 模型必须遵循一些标准化格式

比如,在答案中需包含 #This is the final answer这一标记注释,且将结果保存在Python的pickle模块中,同时需确保提交的代码必须是自包含的,不依赖于先前的计算。

总之,这一评估过程将持续进行,直到模型提交了正确格式化的最终答案,或者达到了预设的标记限制(研究设置为10,000个token)。

如果模型在达到标记限制之前没有提交最终答案,它将收到一个最终提示,要求立即提交最终答案;

如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该尝试被标记为不正确。

陶哲轩看了都说难

为了进一步验证FrontierMath的难度,该机构还特意采访了4位数学大佬。

包括菲尔兹奖得主陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)在内,他们一致认为这些题非常具有挑战性。

下一步Epoch AI也计划从 四个方面持续推进

定期评估这些领先的大模型,并观察高级数学推理能力随时间推移和规模扩大而提高的情况;

保持难度的同时,向FrontierMath添加更多问题;

在未来几个月内发布更多代表性问题,供大家研究讨论;

扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制;

这也合了卡帕西的心意,他认为这样的新基准应该更多,尤其是为那些看似“容易”的事情创建评估。

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。

有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等), 但你不会雇用他们而不是让他们从事最琐碎的工作

如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。

这是 莫拉维克悖论的变相,他在30多年前就观察到,对人类来说容易/困难的事情,与对计算机来说容易/困难的事情,在非直觉上可能大相径庭。

例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。

反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬件和软件的技术水平都是挑战。

这就像不久前OpenAI发布的魔方一样,大多数人都把注意力集中在解魔方本身(这是微不足道的),而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。

因此,我非常喜欢这个FrontierMath基准, 我们应该制作更多的基准

但我也认为,如何为所有 “容易 “但其实很难的东西创建评估是一个有趣的挑战。

很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出…… 我们如何建立良好的 “初级工作 “评估?就像你对团队中任何初级实习生的期望。

网友也表示,能在这种基准测试中取得高分的大模型将大有裨益。

陶哲轩梦想的就是这样的东西,可以连接到LEAN (微软研究院推出的一款定理证明器),让数学家成为编辑、顾问,偶尔处理一些真正困难的部分,而其余部分则自动化且可证明正确。

很难说一个在这次基准测试中能够达到80%的LLM对数学家来说没有用处。

对此,你怎么看?

论文:

https://arxiv.org/html/2411.04872v1

参考链接:

报名即将截止!

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名,评选从 企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月 MEET2025智能未来大会 公布,期待与数百万从业者共同见证荣誉时刻。

点这里

人类不属于地球的证据曝光,可能是外星人进行一项生命实验

世界文明在高度发展着,那么人类是从哪里来的呢?关于这个话题, 许多科学家进行了探讨,有人说是起源于古猿人;还有人说是宇宙生命降临地球。

在最近一则新闻曝光了人类不属于地球的证据,下面就来看看是怎么回事吧。

人类不属于地球的证据曝光1、有人说人类根本就不是地球上的生物,并且列举了一些证据来说明。

大家是不是在平常会感到腰酸背痛,当长时间照射到背部皮肤的时候,就会出现黑色,这是因为在一个地心引起比较低的环境中演化出来的。

2、还有一些现象令人称奇的是,当婴儿诞生的时候其头颅非常大,这样很容易给女性分娩造成困难,还很容易导致女性和婴儿死亡。

在看看其他生物,则根本就没有这种现象,让人不得不深深思索着。

3、人类是整个地球上最高级的生物,可是现代这么发达社会,还是不能很好的适应地球上的环境。

尤其是当我们上升到一定高度的时候,就会出现不同程度的不适感,这些现象让人真觉得不寒而栗。

人类可能是外星人监狱一些科学家表示,人类本来就不是地球上物种,而是宇宙中外星人为了做实验,而将人类送进地球上进行繁衍生息,而外星人则时刻监视着地球上一切。

还有人指出地球就是外星人一座监狱,将一些暴力倾向的人放在地球上。

结语:关于人类不适于地球这一说法,也只是一种猜想,人类还需要继续发展,科学技术还需要不断提高,这样在有朝一日能将这个谜底解开。

高三如何进行高效复习?全学科高考备考攻略整理

  高三阶段面临着极具挑战的高考,那么,高三阶段该如何学习,各科该掌握哪些要点知识,下面是全学科高考备考攻略整理,希望这些有效的学习方法可以帮助到大家。

  【语 文】  多模块备考不可偏废  北京市朝阳外国语学校语文教师许天一介绍,语文复习中,多文本阅读、文言文、古诗词鉴赏、文学类文本阅读和写作这几个模块都不可偏废。

  阅读非连续性文本(多文本)  阅读非连续性文本(多文本)时,考生要迅速把握句子主干,不要被枝节性内容影响,争取用最简短的词语或短语概括每段叙述重点,通过文段大意概括迅速梳理文本叙述思路。

考生要分条作答,并尽量使用主谓宾齐全的陈述句,在一定程度上参考分值作答。

  文言文  文言文复习要注重迁移,举一反三。

考生可将平时的实词、虚词和句式等知识点的训练落实到译文当中,根据具体语境确定词义,积累关键实词及文化常识,体会疑难句的分析方法。

  诗歌鉴赏  诗歌鉴赏要以读懂作者为前提,以联想想象为手段,逐步提高鉴赏水平。

考生读诗时先要从标题入手,整体把握作品,利用好作者背景和相关典故;锻炼通过意象联想画面的能力,摆脱语序和用词对诗歌理解的干扰;聚焦鉴赏形象和手法的相关知识点,做到答题规范、准确。

当然,作家流派、作品风格的日常积累也非常重要。

  文学类文本的阅读  文学类文本的阅读训练,考生要本着从容阅读的原则,即分层次有步骤地逐句、逐段阅读,在这个基础上把握文本的特色、主旨。

只要读懂文章,就会知道题目是从何而来,进而找到答题对象。

逐句阅读并不是浪费时间,考生只要坚持这样训练,阅读速度就会随之提升。

文本分析时,思考角度要由表及里,由此即彼,因实就虚,透过现象看本质,挖掘有形材料背后隐藏的内容,联系社会现实,从生活角度分析,从精神层面评判。

  写作  写作模块,微写作的练习要注意题目要求,写作时不要拖沓或观点不明确,同时注意用词得体。

大作文要解决审题立意及结构问题。

考生平时多注意积累素材,包括时政新闻、生活材料和书本材料;注意作文和前面散文的关系,找到最佳立意点;有条件的话要先列提纲。

  【数 学】  用3+3+1方式归纳知识点  北京市第九中学高三年级组长刘永江建议,考生抓住重点知识板块,在基本知识与方法的系统化上多下功夫。

  所谓重点板块在这一阶段是指函数框架下的一次、二次、反比例、正比例和指数、对数、幂函数等基本函数,另外还有三角函数和特殊函数、数列内容。

考生可采取3+3+1的方式对这部分内容系统归纳,即:三要素+单调性、奇偶性、周期性+函数图象。

  在这7个方面中,函数图象又是函数复习内容的首位,是高三复习的“主要抓手”。

之所以这样说,一是函数图像对考生知识点掌握要求高,二是这部分内容是复习的难点和重点。

考生复习函数图像,先要会画函数,再对陌生函数图像进行解析。

考生可从函数图像平移、伸缩、对称等入手,掌握这部分内容。

  【英 语】  梳理重点语法  北京宏志中学英语老师兰香表示,一轮复习的重点基本是词汇和语法。

到期中考试时,英语语法复习一般都已结束,词汇复习可能还在进行中,所以期中考试只是一个阶段性考试,试题难度和高考要求尚有一定距离,但单选部分考查的语法点和高考一致。

  重点语法  考生考前要梳理重点语法,包括时态语态、非谓语动词、情态动词和虚拟语气、定语从句、名词性从句、状语从句。

考生可多复习平时练习中的错题,做到对考点心中有数。

  听力、完形、阅读  听力、完形、阅读是英语考试中的常规题型,也是平时练习的重点。

考生要把握好做题速度,不要在完形、阅读上浪费过多时间。

  书面表达  书面表达需要考生日积月累、细水长流的付出。

在考试中,考生能做到会审题、会谋篇、会表达就算是达到了阶段性目标。

考前,考生可以复习之前写过的文章,总结常见错误,体会范文中的精华。

尤其是对于书面表达第一部分的应用文写作,考生要正确审题,在写作中体现文章的交际性和开放性。

  【物 理】  基础问题深入理解  北京市第五十五中学物理教师刘建丰介绍,期中考试,力学部分难点有两个:摩擦力和动量、能量综合题。

  摩擦力  摩擦力方面,考生要注意区分静摩擦力和滑动摩擦力,以及运动过程中这两种摩擦力的突变问题、做功问题等。

斜面中、传送带中的摩擦力特点,特别需要考生能够分清过程,抓住突变状态。

  动量、能量综合题  动量、能量综合题往往将动量守恒(或动量定理)和能量守恒(或功能关系)结合起来。

考生要将典型例题从这两个角度分析透彻。

  回归教材  考生学习情况不同,备考方法也不同。

基础薄弱的考生要将典型问题逐题、逐点落实,把错题重新做一遍,把老师讲过的问题独立自主思考一遍。

物理学习有优势的考生,不要把时间都用在刷题上,要注重对基本问题的深入理解。

考生可回归教材,想一想结论是如何得出的,而不仅是会应用结论。

  【生 物】  训练思维,反思错题  中国人民大学附属中学教师王萍:  期中考试是对高三第一阶段复习的集中检验。

考生要重视和利用好这次考试,复习和备考可采用以下方法:  1.突出本学科主干知识,建立有利于临场应变的思维高度和解题所需的知识网络。

  考生不仅要重视基础知识,更要以知识为载体,训练正确的思维方法,加强生物知识的迁移能力,以便灵活分析和解决问题。

具体措施是对期中考试涉及教材模块进行综合复习,以核心概念为线索进行知识回顾。

考生可先列举模块中涉及的概念,再以核心概念为中心构建概念图,画出知识网络图,以“问题串”形式展开网络中每一环节的知识连锁。

  2.加强错题反思,将易错考点按知识点整理归纳,明晰出错原因,提炼同类题型的解题方法,并进行变式训练。

  考生要通过分析总结弄清问题是在知识上还是能力上。

所谓马虎现象大多是知识点不清晰导致的,考生要先从读课本入手,理清知识点,发现漏洞就赶紧翻课本查笔记,找到对应知识点,联系上下文,牢牢记住。

改错表面上看是体力活,实际上也是学习的“艺术”。

同样的一道错题,有的人能发散思维挖掘很多东西,有的人却只能就题论题,只是多见了一个题目而已。

谁能把做过的题目吃得更透,谁就赢了第一步。

  【化 学】  做一个彻底的“明白人”  北京市第十二中学教师 李鹏举:考前复习化学,考生的首要任务是整体梳理每一部分主要的知识点。

  首先,在概念和原理方面形成“核心观念”。

  比如离子共存问题可总结为“一色二性(酸碱性)三反应(氧化还原、复分解、配位反应)”,氧化还原概念可总结为“升(化合价)失(电子)氧(发生的反应),降得还”。

每个概念原理都可用文字、图表凝炼。

考生要经常悟其涵义,逐步深化理解。

  其次,记好元素化合物知识和元素周期律(表)知识。

  一方面是基于“短周期”的元素推断题,重点是非金属N、S、Cl、C等方面内容,这也是实验探究题的核心内容;另一方面是工艺流程图题,其特点是结合化学实验、化学反应原理等知识,更偏向金属元素钠、铝、镁、铁、铜等方面内容。

  最后,考试中的审题、表达非常重要。

  审题时,要注意审细节,例如:关键词——“无色溶液”“酸性溶液”“碱性溶液”,“一定”“可能”“一定不能”等,防止“答非所问”。

考生答题时要规范地书写、表达。

  【历 史】  基础知识复习透彻  北京市第九中学老师臧家富强调,高三生现阶段要把基础知识复习透彻。

  一是理顺时序,理清历史事件的先后顺序,理解历史概念;二是在之前按照独立章节学习的知识点间建立起逻辑关系,系统理解记忆;三是用几条线串起来,将之前碎片化的内容形成知识体系。

  “历史学习也有‘套路’。

”一是夯实基础知识,理顺时序、寻找逻辑、建立体系;二是提升应试能力,适当练习,强化知识,掌握技巧。

历史每年考的都是新的材料内容。

考生不仅要能读懂材料,提高阅读理解能力,还要有好的“输出能力”,能用所学内容有理有据地表达自己的观点。

  【地 理】  回归基本查缺补漏  北京市八一学校地理教研组组长蒋立红认为,地理复习的主干知识主要包括地球、地图、自然地理、区域地理,其中以自然地理为主,侧重于对基础知识、基本概念和原理的考核。

考生复习时要注意知识间的联系,构建知识网络,在网络中查缺补漏。

  北京的考题突出能力考核,反映在地理学科中,就是考察考生获取和解读信息的能力、调动和运用知识的能力、描述和阐释事物的能力、论证和探讨问题的能力。

其中最重要的是获取和解读信息的能力。

考生提升了此项能力,会在解答综合题时事半功倍。

  要特别强调的是,北京卷近年重视传统文化的考核,考题的情境、背景也比较新颖,地理题甚至可能涉及文学作品。

比如2015年的地理试题中,选用了贾平凹《太白山记》中的一段话,通过要求考生阅读文学作品考察地理知识。

遇到新颖的考题,考生不要慌,不管命题材料多么新鲜,其考核的中心点还是地理基础知识和原理。

  【政 治】  北京市第二十中学高级教师 李长青:  对政治科目的复习,考生要运用三战术应对。

  战术一:研究北京2010年以来的高考政治试卷,找出规律和特点  一直以来,北京政治试题背景材料鲜活,有北京特色,具体不空泛,形式多有漫画、图表、表格等。

试题突出对社会主义核心价值观和政治核心素养的考察,近两年增加了短评(小论文)的题型。

试题对实践能力要求越来越高。

由于试题文字量越来越大,考生复习中要注意提高阅读速度、答题速度。

  战术二:扎实掌握基础知识,以不变应万变  考生要牢牢把握基础知识,尤其要在知识体系中掌握知识点,而不是孤立地记忆。

比如,关于消费的知识,就要想到生产与消费是什么关系?消费与收入有怎样的关系?分配与消费有怎样的关系?此外还有哪些主客观因素影响消费?考生要准确记忆基础知识,不能只求大概;要用书面语言表述。

  战术三:在练习中巩固基础知识,提高能力  考生通过近两个月的训练,已经知道怎么审题(审设问、审材料)、怎么答题,但还要通过多做题,总结共性的答题方法,提高解答问题的能力。

考生要着重做北京市近几年的高考题、各区近几年的模拟题。

对错题,考生要注意思考自己到底错在哪里,反复挖掘、举一反三,找出自己的思维误区所在,把题目吃透。

加入收藏
               

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录