政策相關

Meta 提出全新 AI 訓練技術震撼業界： TPO 讓人工智慧開始「思考」

By admin 2024-12-01 12:05

美國科技公司 Meta 於 10/14 攜手加州大學與紐約大學，共同推出了全新的 AI 訓練技術「思維偏好優化」(TPO)，這項技術模仿人類思維過程，讓 AI 在提供答案之前進行內部思考，類似於「反思」。這一突破性技術不僅有望挑戰 OpenAI 等競爭者，還將為 AI 助理和聊天機器人等語言工具帶來更智能的交互體驗。

Table of Contents

Toggle

會自我思考的 AI 真的出現了

TPO 的核心功能在於讓模型進行「內部思考」，像是給人工智慧加上一個「心理暫停鍵」，使模型在做出決策前進行內部反思。傳統 AI 模型通常會直接給出解答，再依據你的反饋做出一遍遍的調整，不斷試錯直到找到最終答案，而 TPO 的創新則是讓模型在生成最終答案之前，進行自我推理與內部演算，類似於邏輯思考，模擬人類在複雜問題面前的思考方式。

根據 Meta 的說法，這項技術不僅能讓 Al 提供更具有思考性的答案，還能在市場營銷、醫療健康等需要高層次推理的領域發揮巨大作用，有潛力進一步提升 AI 助理、聊天機器人等語言工具的效能。

廣告 - 內文未完請往下捲動

上圖為 TPO 回應非推理寫詩指示的範例 : 這個例子顯示了思考如何有助於理解任務並相應地進行規劃，甚至對於創意寫作也是如此；綠色的思考部分不是回應的一部分。

(前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對)

什麼是思維偏好優化 (TPO)？

TPO ( Thought Preference Optimization ) 是一種突破性的訓練方法，通過一種稱為「強化學習」的訓練方法，讓模型進行多次迭代學習。在過程中，模型會生成內部思考並進行自我評估，而研究人員則只對模型的最終答案進行評估，這意味著模型能自主學習如何優化自己的推理過程，靠邏輯推導自我糾正錯誤。這與過去強調顯示每一步推理的傳統 AI 模型不同，TPO 讓 AI 的思考過程隱藏，僅顯示最終結果。

這項技術的另一大亮點是它不需要重新訓練模型或大量新數據，只需基於現有的模型架構進行調整，就可以給出有創造力的回答。

AI 自我思考的代價

這項技術的目前困難，特別是在數學領域表現下降，以及缺乏對思維過程字數長度的控制，這兩者均成為模型優化過程中的關鍵瓶頸，研究人員也坦言，若該模型無法做到限制思考長度，將會消耗大量的運算成本，如何改進這兩點也將成為實驗的未來方向。

全新 AI 領域的突破：挑戰openAI

TPO 的推出讓 Meta 的 AI 技術更具競爭力，有望挑戰目前在 AI 領域領先的 OpenAl。Meta 的這一技術不僅提升了模型的準確性，還能讓AI更好地理解複雜問題背後的邏輯，為開源模型的進一步創新鋪平道路。對此，業界分析人士認為，TPO 將成為與 OpenAI 的 StrawBerry 等模型競爭的重要利器。而隨著美國大選的塵埃落定，Meta 的股價也一度攀升至 595 USD ，可見得大家預期川普的上任後對於科技發展影響巨大。

AIMETAThought Preference OptimizationTPO思維偏好優化

衍伸閱讀

Meta 區塊鏈專案負責人：Diem 告吹是政治問題而非監管，曝背後牽涉龐大政治與銀行利益
Meta 提供 LLM 支援美軍，與微軟及亞馬遜合作強化美國國安

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：Meta 提出全新 AI 訓練技術震撼業界： TPO 讓人工智慧開始「思考」

地址：https://www.pressbased.com/post/9773.html