9月18日消息,DeepMind和OpenAI的人工智能模型在素有“编程界奥运会”之称的比赛中展现出了“金牌级”的表现,标志着人工智能技术的发展迎来了一个重要里程碑。
今年9月初,在国际大学生程序设计竞赛(ICPC)全球总决赛上,这些人工智能模型在与全球顶尖人类选手的比拼中取得了上述优异成绩。
该项赛事被公认为全球最负盛名的编程竞赛。谷歌联合创始人谢尔盖·布林(Sergey Brin)和OpenAI首席科学家雅各布·帕乔基(Jakub Pachocki)等知名人士都曾参加过这项赛事。
尽管OpenAI和DeepMind都并非正式参赛者,但OpenAI于周三表示,其人工智能模型的成绩本可以在比赛中拔得头筹。据称,公司最新的GPT-5模型解出了全部12道难题,其中11道是一次性通过的。
由英国诺贝尔奖得主丹米斯·哈萨比斯爵士(Sir Demis Hassabis)领导、总部位于伦敦的DeepMind实验室则表示,其人工智能推理模型Gemini 2.5 Deep Think的总体表现可以在竞赛中位列第二。据悉,该模型解出了12道难题中的10道,还破解了一道所有人类选手都未能完成的难题。
在软件工程师越来越依赖新一代人工智能模型辅助编程的大背景下,这一突破应运而生。
DeepMind的技术已在多项顶级赛事中战胜人类,比如击败世界顶尖围棋选手以及在国际数学奥林匹克竞赛中摘金。今年夏天,OpenAI同样在国际数学奥赛中夺得金牌。
谷歌DeepMind副总裁、谷歌会士(Google Fellow)黎曰国表示:“这是迈向通用人工智能(AGI)的历史性时刻。”他所指的通用人工智能是超越人类能力的系统,数十年来,人工智能研究人员一直在追求这一重大目标。
加州大学伯克利分校电气工程与计算机科学系主任杰拉尼·尼尔森(Jelani Nelson)评价道:“一个纯人工智能系统在没有人类介入的情况下能取得如此成绩,令人惊叹。”尼尔森曾指导过麻省理工学院、哈佛大学和加州大学伯克利分校的多支ICPC参赛队。他补充说,“如果几年前有人告诉我,新技术能在数学和计算机科学领域达到如此水平,我绝不会相信。”
在这场编程竞赛中,三人小组需在5小时内共用一台电脑解决12道高难度编程题,排名依据解题速度、准确性和数量综合评定。本届竞赛中,人类选手最多解出10道题,139支参赛队伍中仅有4支获得金牌。
要解决这些问题,参赛者必须理解复杂的问题,制定逻辑清晰的解题计划,并确保执行过程零失误。解答这种高难度问题还离不开抽象推理能力和创造力。
人工智能相比人类有一个关键优势:无需团队协作。
牛津大学计算机科学副教授、ICPC教练巴尔泰克·克林(Bartek Klin)说:“我指导队伍时,默认他们已经懂得如何解题……我能给的建议只是如何在高压环境下协同合作。”
DeepMind团队使用了“强化学习”技术,即通过奖励期望结果来训练人工智能系统,并用高难度的数学、推理和编程问题对Gemini模型开展了强化训练。
OpenAI则使用其最新的GPT-5模型解决了所有问题,其中最难的一道题是GPT-5和一个实验性推理模型共同破解的。
谷歌DeepMind研究总监兼首席科学家郑恒之(Heng-Tze Cheng)表示,编程竞赛是“终极思维博弈”,因为它要求模型提出新方法并将学习成果泛化,而非简单地记忆解题方法。
但牛津大学的克林认为,在注重速度的编程竞赛环境中取得成功,未必能转化为实际工作中出色的软件开发能力。他说:“在现实世界里,最棘手的问题往往需要花上半年时间去思考。”
虽然Gemini模型解出一道人类选手未能攻克的难题,但也未能解答出所有人类选手完成的题目。DeepMind表示,此次实验表明人工智能模型可以“提供独特新颖的贡献,与人类专家的技能知识形成互补”。
黎曰国表示,这一进步还有望改变需要数学理解和编程能力的诸多科学与工程学科,例如新药研发和计算机芯片设计等。
他说,“解决数学和编程竞赛中的难题是理解人类智能运作方式的关键一步。”
外界评论:是历史性突破还是言过其实?
英国《卫报》撰文称,谷歌DeepMind宣称取得的这项“历史性”人工智能突破,其意义堪比1997年“深蓝”计算机击败国际象棋大师加里·卡斯帕罗夫(Garry Kasparov),以及2016年人工智能战胜人类围棋冠军的里程碑事件。
文章援引黎曰国的话说,“对我而言,这个时刻等同于国际象棋领域的‘深蓝’和围棋领域的AlphaGo时刻,甚至意义更为重大,因为它更接近于解决现实世界的问题,而不仅限于国际象棋和围棋这类受限环境。”
但也有声音给这种说法降温。加州大学伯克利分校计算机科学教授斯图尔特·罗素(Stuart Russell)评论称,“所谓划时代意义的说法似乎有些夸大其词”。他指出人工智能系统在编程任务方面本就表现出色,而当年“深蓝”在国际象棋上的突破“对应用人工智能的现实世界基本没有产生实际影响”。
不过罗素也承认,“要想答对ICPC的题目,代码必须能正确运行(至少要通过有限的测试用例),所以这次的表现可能标志着人工智能编程系统在生成高质量代码的准确性上有所提高。”
罗素提醒道:“人工智能公司持续宣称取得突破的压力巨大。”
牛津大学人工智能基础学Ashall教授迈克尔·伍尔德里奇(Michael Wooldridge)认为,这听起来确实令人振奋,但对其所需计算资源提出了质疑。谷歌拒绝透露具体数据,只是简单提到其解题所用算力超过了普通用户每月250美元订阅谷歌AI Ultra服务、在Gemini应用中所能使用的轻量版Gemini 2.5 Deep Think模型。
ICPC执行主任比尔·鲍彻博士(Dr. Bill Poucher)则这样总结:“Gemini成功进入这一竞技场并取得金牌级成绩,标志着在定义下一代所需的人工智能工具和学术标准方面,我们迎来了关键时刻。”(辰辰)
富牛网配资-富牛网配资官网-配资炒股网站官网-外盘配资公司提示:文章来自网络,不代表本站观点。