兩位AI先驅獲圖靈獎

來源:量子號
據《紐約時報》報道,2025 年圖靈獎授予了兩位人工智能先驅安德魯·巴托和理查德·薩頓,他們开發了強化學習技術,該技術對 ChatGPT 等聊天機器人至關重要。
馬薩諸塞大學阿默斯特分校的安德魯·巴托(Andrew Barto,左)和理查德·薩頓(Richard Sutton)的研究在當今的人工智能系統中發揮着關鍵作用。(圖源:via Association for Computing Machinery)
1977 年,安德魯·巴托作爲馬薩諸塞大學阿默斯特分校的一名研究員,开始探索一種新理論,即神經元的行爲類似於享樂主義者。其基本觀點是,人類大腦由數十億個神經細胞驅動,每個神經細胞都在努力將快樂最大化,將痛苦最小化。
一年後,另一位年輕的研究員理查德·薩頓加入了他的團隊。他們一起用這個簡單的概念來解釋人類智能,並將其應用於人工智能。他們的成果就是“強化學習”(Reinforcement Learning),這是一種讓人工智能系統從數字世界中學習快樂和痛苦的方法。
本周三,全球最大的計算機專業協會——美國計算機協會宣布,巴托博士和薩頓博士因他們在強化學習方面的研究成果獲得了今年的圖靈獎。圖靈獎於 1966 年設立,通常被稱爲計算機界的諾貝爾獎。這兩位科學家將分享該獎項的 100 萬美元(約合 725.96 萬元人民幣)獎金。
過去十年來,強化學習在人工智能的崛起中發揮了至關重要的作用,包括谷歌的 AlphaGo 和 OpenAI 的 ChatGPT 等突破性技術。這些系統的技術源於巴托博士和薩頓博士的研究成果。
“他們是強化學習領域無可爭議的先驅,”華盛頓大學計算機科學名譽教授、艾倫人工智能研究所創始人兼首席執行官奧倫·埃齊奧尼說。“他們提出了關鍵的想法,並撰寫了有關該主題的著作。”
他們的著作《強化學習:導論》(Reinforcement Learning: An Introduction)一書於 1998 年出版,至今仍是對這一想法的權威探索,許多專家認爲這一想法才剛剛开始發揮其潛力。
長期以來,心理學家一直在研究人類和動物從經驗中學習的方式。20 世紀 40 年代,英國計算機科學家先驅艾倫·圖靈提出,機器也能以類似的方式學習。
但巴托博士和薩頓博士开始探索這種學習方式的數學原理,他們以爲政府工作的計算機科學家 A·哈裏·克洛普夫提出的理論爲基礎。巴托博士隨後在馬薩諸塞大學阿默斯特分校建立了一個實驗室,專門研究這一想法,而薩頓博士則在加拿大阿爾伯塔大學建立了一個類似的實驗室。
“當你談論人類和動物時,這是一個顯而易見的想法,”薩頓博士說,薩頓博士同時還是人工智能初創公司基恩科技(Keen Technologies)的研究科學家,也是加拿大三大國家人工智能實驗室之一阿爾伯塔機器智能研究所的研究員。“當我們復興它時,它是關於機器的。”
直到 2016 年 AlphaGo 出現之前,這仍然是一項學術追求。大多數專家認爲,還需要 10 年時間才會有人研制出能夠在圍棋比賽中擊敗世界頂級選手的人工智能系統。
但在韓國首爾舉行的一場比賽中,AlphaGo 擊敗了過去十年最優秀的圍棋選手李世石。其中的祕訣在於,該系統已經與自己對弈了數百萬盤,通過不斷嘗試和犯錯來學習。它學會了哪些招式會帶來成功(快樂),哪些招式會帶來失敗(痛苦)。
構建該系統的谷歌團隊由大衛·西爾弗領導,他是一位研究員,曾在阿爾伯塔大學師從薩頓博士研究強化學習。
許多專家仍然質疑強化學習是否可以在遊戲之外發揮作用。遊戲勝利取決於分數,這使得機器很容易區分成功和失敗。
但強化學習在在线聊天機器人中也發揮了重要作用。
在 2022 年秋天 ChatGPT 發布之前,OpenAI 聘請了數百人使用早期版本,並提供精確建議,以磨練聊天機器人的技能。他們向聊天機器人展示了如何回答特定問題,對其回答進行評分並糾正其錯誤。通過分析這些建議,ChatGPT 學會了如何成爲一個更好的聊天機器人。
研究人員稱之爲“從人類反饋中進行強化學習”(簡稱 RLHF),這也是當今聊天機器人能做出令人驚訝的逼真反應的關鍵原因之一。
(《紐約時報》已起訴 OpenAI 及其合作夥伴微軟侵犯與人工智能系統相關的新聞內容的版權。OpenAI 和微軟否認了這些指控。)
最近,OpenAI 和 DeepSeek 等公司开發了一種強化學習方式,使聊天機器人能夠自我學習——就像 AlphaGo 一樣。例如,通過解決各種數學問題,聊天機器人可以了解哪些方法可以得出正確答案,哪些方法不能。
如果用大量問題重復這個過程,聊天機器人就能學會模仿人類的推理方式——至少在某些方面。結果就是所謂的推理系統,比如 OpenAI 的 o1 或 DeepSeek 的 R1。
巴托博士和薩頓博士表示,這些系統暗示了未來機器的學習方式。他們說,最終,配備人工智能的機器人將像人類和動物一樣,在現實世界中通過反復試錯來學習。
“通過強化學習來學習控制身體——這是非常自然的事情,”巴托博士說。
標題:
地址:https://www.pressbased.com/post/11713.html