欢迎来到凯发k8(中国)天生赢家,凯发K8官网入口,AG凯发官方网站天地科技(北京)有限公司网站!
咨询电话:

13810889201

|凯发k8娱乐登录平台注册巴托、萨顿因强化学习获2024年图灵奖DeepSeek在该领域取得突破

更新时间:2025-03-06      点击次数:

  一年之后,另一位年轻的研究员萨顿也加入了他的行列。他们一起努力用这个简单的概念来解释人类的智力◆★★◆■★,并将其应用于AI领域。他们的研究成果便是强化学习,这是一种让AI系统从数字世界的◆◆“愉悦”与“痛苦”中学习的方法。

  过去十年,强化学习在人工智能(AI)的崛起中发挥了至关重要的作用,其中包括谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术。支撑这些系统的技术就源于巴托博士和萨顿博士的研究成果。

  巴托目前是马萨诸塞大学荣誉退休教授。萨顿现在担任阿尔伯塔大学教授,他也是前DeepMind研究科学家◆■◆。两人将分享图灵奖的100万美元奖金。图灵奖设立于1966年,常被称为“计算机界的诺贝尔奖”。

  “他们是强化学习领域无可争议的先锋■★■■★,■★”华盛顿大学计算机科学荣誉退休教授、艾伦AI研究所创始人兼CEO奥伦埃特齐恩(Oren Etzioni)表示,◆■■■■“他们提出了关键理念,并且撰写了这方面的权威著作。■■◆★”

  在强化学习方面,DeepSeek取得三大突破:首创无需人类标注的自主强化学习系统,使AI通过试错掌握数学推理等高阶能力;优化RLHF技术,降低人工标注成本并拓展至对话、代码生成等场景◆★★◆;前瞻布局物理世界训练★◆◆★★,推动机器人实体智能进化。其技术实现从数字反馈到自主决策的跨越,为通用人工智能发展提供新路径。

  这种学习范式在ChatGPT等大语言模型中继续进化。2022年底,OpenAI通过“人类反馈强化学习”(RLHF)技术★■,让数百名标注员引导模型优化应答。当聊天机器人学会辨别优质回答获得◆■“奖赏”,其对话能力产生质的飞跃。近期DeepSeek等企业更开发出自主强化学习系统,使AI能像解数学题般,通过试错掌握逻辑推理能力。

  凤凰网科技讯 北京时间3月5日,据《》报道,全球最大的计算机专业人士协会计算机协会(ACM)周三宣布,将2024年图灵奖授予安德鲁巴托(Andrew Barto)博士和理查德萨顿(Richard Sutton)博士,以表彰他们在

  1977年,巴托在马萨诸塞大学阿默斯特分校担任研究员时,开始探索一种新的理论★■◆■,即神经元的行为类似于享乐主义者◆■◆◆■★。该理论的基本理念是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在努力将愉悦感最大化◆★■◆,把痛苦感最小化。

  现年76岁的巴托教授指出:“通过强化学习控制物理躯体,将是自然演进的下个阶段。”目前任职于Keen Technologies的萨顿同样认为■◆★,当前基于文本的学习只是序章,未来机器人将在真实世界中像生物般试错成长凯发k8娱乐登录平台注册。(作者/箫雨)

  2016年AlphaGo战胜李世石震惊世界,这场人工智能的■■◆★◆★“登月时刻”背后,正是强化学习的威力体现。谷歌DeepMind团队核心成员大卫席尔瓦◆★■★★◆,正是萨顿在阿尔伯塔大学培养的弟子。通过数百万次自我对弈◆★,系统建立起“胜者愉悦-败者痛苦”的反馈机制,最终突破人类千年围棋智慧。

  • 凯发k8(中国)天生赢家
  • 凯发K8官网入口
  • AG凯发官方网站
  • 关于我们
扫码关注

传真:86-010-57799518

邮箱:zgtdkj@163.com

地址:北京市丰台区丰体时代大厦C座

版权所有©2024 凯发k8(中国)天生赢家,凯发K8官网入口,AG凯发官方网站天地科技(北京)有限公司 All Rights Reserved     备案号:京ICP备13004546号-1