政策相關

超越人類博士能力！OpenAI o1 程式設計與推理再進化，數學奧林匹亞進前五百

By admin 2024-09-13 04:05

OpenAI 最新推出的 AI 模型 OpenAI o1，OpenAI 表示它在各種基準測試中表現卓越。從競技程式設計到超越人類博士水準的科學考試，o1 模型正在推動 AI 推理能力的新標準。

Table of Contents

Toggle

競技成就：AI 表現的新標準

OpenAI 表示，OpenAI o1 展現了在競技程式設計、數學和科學領域的非凡能力。該模型在 Codeforces 這個知名競技程式設計平台的表現達到第 89 個百分位，並位居美國數學奧林匹亞競賽 (AIME) 的前 500 名。此外，在測試物理、生物和化學專業知識的 GPQA 基準測試中，o1 的準確度超越了人類博士水準。

OpenAI o1 已開放使用

儘管 OpenAI 正在努力使 o1 與現有模型一樣易於使用，早期版本 OpenAI o1-preview 已經在 ChatGPT 和受信任的 API 用戶中可用。這一早期接入旨在展示 o1 強大的推理能力及其重新定義 AI 應用的潛力。

廣告 - 內文未完請往下捲動

數據高效的 AI 推理方法：關聯思考

該公司表示，OpenAI o1 的成功源於其大規模強化學習算法，該算法使用「關聯思考」(chain of thought) 方法來教導模型進行有效推理。這種訓練方法具有高度的數據效率，使得模型能夠隨著強化學習的增強，和測試場景中思考時間的增加而穩定進步。與傳統的大型語言模型預訓練不同，這種方法具有獨特的擴展限制，OpenAI 正積極探索其中的奧祕。

推理密集型基準測試超越 GPT-4o

為強調 o1 相較於其前身 GPT-4o 的推理改進，OpenAI 將該模型測試於各類人類考試和機器學習基準測試中。結果顯示，o1 在大多數推理密集型任務中大幅超越 GPT-4o。在 2024 年 AIME 考試中，GPT-4o 僅解決了 12% 的問題，而 o1 在每個問題單一樣本情況下平均解決 74%，在 64 個樣本共識下達到 83%，在 1,000 個樣本使用評分函數重新排序後達到 93%。這一表現使 o1 排名全國前 500 名，超越進入美國數學奧林匹亞的門檻。

在科學基準測試中超越人類專家

OpenAI o1 在 GPQA diamond 基準測試中同樣表現出色，該測試針對化學、物理和生物領域的專業知識。OpenAI 邀請博士專家回答這些問題，結果顯示 o1 超越了人類專家，成為首個在該基準測試中達到此成就的模型。雖然這並不意味 o1 在所有方面都優於博士學位，但它突顯了該模型在特定領域的卓越問題解決能力。

在其他機器學習基準測試中，o1 繼續超越現有的最先進模型。啟用視覺感知功能後，o1 在 MMMU 中得分 78.2%，表現與人類專家相當，並在 57 個 MMLU 子類別中的 54 個超越 GPT-4o。

類似人類的思考方式：關聯思考

OpenAI o1 採用類似人類在回答複雜問題前的「關聯思考」方法。這種方法可以讓模型透過強化學習不斷優化策略，將困難的步驟分解為更簡單的任務，並在必要時探索替代方法。這一學習過程顯著提升了模型的推理能力，使其能更好地處理挑戰性問題。

程式設計表現可與人類工程師競爭

OpenAI 針對程式設計訓練了一個版本的 o1，並在競技程式設計中取得了顯著成果。該模型在 2024 年國際資訊奧林匹亞 (IOI) 中獲得 213 分，排名第 49 個百分位，展示了其在類似人類競賽條件下的程式設計技能。在放寬提交限制後，模型表現大幅提升，單題提交 10,000 次後得分超過金牌門檻。

在 Codeforces 主辦的模擬競技程式設計比賽中，o1 的 Elo 評分達到 1807，超越 93% 的人類競爭者，並遠遠超過 GPT-4o 的表現。

人類偏好評估：o1 vs. GPT-4o

OpenAI 也對 o1-preview 與 GPT-4o 於各類開放式提示下的回應進行了人類偏好評估。在數據分析、程式設計和數學等推理密集型領域，人類訓練師顯著偏好 o1-preview。然而，o1-preview 在某些自然語言任務中不被偏愛，顯示其不一定適用於所有使用場景。

OpenAI 此次強調安全性

o1 的「關聯思考」方法不僅提升了推理能力，還為安全性提供了新機會。OpenAI 已將安全政策整合進模型的推理過程，使其更能遵循人類的價值觀和原則。此方法使模型在關鍵安全基準上表現有所提升，展現了其在處理複雜倫理情境時的增強穩健性。

為保護競爭優勢並確保模型保持初衷，OpenAI 決定不對用戶顯示 o1 的原始關聯思考。取而代之的是，該模型會生成思維過程的摘要，這些摘要將指導最終答案，目的是在不妥協安全性的情況下保持透明度。

OpenAI o1 在 AI 推理領域邁出了重要的一步，在競技程式設計、數學和科學領域展現了卓越表現。隨著 OpenAI 持續改進該模型，未來版本有望進一步對齊人類價值觀，並在編程、科學等複雜推理密集型任務中開創新的應用前景。

chain of thoughtOpenAIOpenAI o1關聯思考

衍伸閱讀

科技巨頭爭相投資 OpenAI，估值已破千億美元
馬斯克公開表態挺人工智慧安全法案 SB 1047，獲 Vitalik 支持

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：超越人類博士能力！OpenAI o1 程式設計與推理再進化，數學奧林匹亞進前五百

地址：https://www.pressbased.com/post/8473.html