AI顶级数学推理FrontierMath基准测试表现惨淡 ilogic数字推理测评
AI数学界迎来了一场前所未有的顶级推理挑战——FrontierMath基准测试,这场由Epoch AI携手60多位最高数学家共同打造的数学盛宴,旨在评估人工智能在化解复杂数学问题上的真正能力,测试结果却令人大跌眼镜,六个领先的LLM(大型语言模型)在FrontierMath上的正确率竟然不超过2%,这一结果无疑向AI数学神话泼了一盆冷水。
FrontierMath基准测试自推出以来,就以其独特的挑战性与创新性吸引了广泛关注,该测试涵盖了现代数学的大多数主要分支,从数论中的计算密集型问题到代数几何与范畴论中的抽象问题,旨在捕捉当代数学的概貌,Epoch AI和数学家们精心设计了数百道原创的、极具挑战性的数学问题,这些问题不仅新颖且未发表,有效避免了数据污染的问题,FrontierMath还遵循了三个决定因素的设计守则:全部问题都是新的且未发表的、化解方案是自动可验证的、问题是“防猜测”的,以确保测试的公平性与准确性。
参加测试的六个LLM模型包括o1、Claude 3.5 Sonnet、GPT-4o、Grok与Gemini 1.5 Pro,这些模型在传统的数学基准测试中往往能取得90%以上的高分,在FrontierMath面前,它们却显得力不从心,即使有延长的考虑时间(10,000个token)、Python访问权限以及运行实验的能力,这些LLM模型的成功率仍然低于2%,这一结果无疑暴露了LLM在化解复杂数学问题上的局限性,也引发了人们对AI数学能力的从头审视。
Epoch AI指出,现有的数学基准测试如GSM8K与MATH等,由于问题大多已被LLM们反复练习与记忆,因此高分往往是通过“作弊”得来的,而FrontierMath则完全不同,全部题目都是最新的、未公布的,LLM们无法通过记忆来提升分数,这一设计使得FrontierMath成为了壹个真实能够检验AI数学推理能力的基准测试。
为了进一步验证FrontierMath的难度,Epoch AI还特意采访了多位菲尔兹奖得主与国际数学奥林匹克竞赛教练,这些数学界的最高角色一致认为,FrontierMath的题目特别具有挑战性,需要深厚的专业姿势与强大的推理能力才能化解,他们表示,即使是经验丰富的数学专家,也需要绞尽脑汁、花费数小时甚至数天的时间才能解出这些问题。
Andrej Karpathy作为人工智能领域的知名学者,也对FrontierMath基准测试表示了高度赞赏,他认为,这一测试揭示了莫拉维克悖论在AI评估中的体现,莫拉维克悖论指出,人类所独有的高阶情商能力(如推理)只需要特别少的计算能力,而无意识的技能与直觉却需要极大的运算能力,这一悖论在FrontierMath基准测试中得到了充分体现:LLM们在化解复杂的数学问题时显得力不从心,而人类数学家则能够凭借深厚的专业姿势与强大的推理能力轻松应对。
FrontierMath基准测试的结果不仅引发了人们对AI数学能力的从头审视,也为大家提供了真贵的启示,它告知大家,尽管AI在许多领域都取得了显著的进步,但在化解复杂数学问题方面仍然存在着巨大的挑战,这并不意味着AI无法在数学领域取得突破,而是需要大家更加深入地研究AI的数学推理机制,寻觅更加有效的算法与模型来提升其数学能力。
FrontierMath基准测试也为大家提供了壹个新的评估要求,在未来的AI研究中,大家可以将FrontierMath作为壹个重要的基准测试来评估AI的数学推理能力,这不仅有助于大家更加准确地知道AI的数学水平,还能够推动AI在数学领域的发展与创新。
值得一提的是,FrontierMath基准测试目前仅公布了五道示例问题,但这些问题已经足够让人领略到其难度与挑战性,随着研究的深入与技术的不断进步,大家有理由相信,未来会有更多的AI模型能够在FrontierMath上取得更好的成绩,大家也期待Epoch AI能够继续推出更多类似的基准测试,为AI的数学推理能力提供更加综合与准确的评估。
FrontierMath基准测试无疑向AI数学界带来了一场震撼,它不仅揭示了LLM在化解复杂数学问题上的局限性,也为大家提供了真贵的启示与新的评估要求,在未来的研究中,大家将继续寻觅AI的数学推理机制,推动AI在数学领域的发展与创新,大家也期待更多的AI模型能够在FrontierMath等基准测试上取得更好的成绩,为人类社会的进步与发展贡献更多的情商与力量。
参考来源:
1、企鹅网
2、知乎专栏
3、微信公众平台(企鹅网)