市場新聞

AI 是 Crypto 的代理人—— AI Agent 進化始末

By 佐爺歪脖山 2025-01-20 06:42
AI 是 Crypto 的代理人—— AI Agent 進化始末

來源:佐爺歪脖山

A work of art is never completed, only abandoned.

大家都在說 AI Agent,但是大家所說的並不是同一個東西,這導致我們所關心的 AI Agent 和大衆視角下,以及 AI 從業者的視角都有所不同。

許久之前,我曾寫過 Crypto 是 AI 的幻覺,從那時到現在,Crypto 和 AI 的結合一直是一場單相思,AI 從業者甚少提及 Web3/區塊鏈這些術語,而 Crypto 從業者卻對 AI 的一往情深,而在見識到 AI Agent 框架都能被代幣化的奇景後,不知道能否真正將 AI 從業者引入我們的世界。

AI 是 Crypto 的代理人,這是從加密視角本位去看待本輪 AI 狂飆的最佳注釋,Crypto 對 AI 的狂熱不同於其他行業,我們特別希望能將金融資產的發行和運作與之嵌合。

Agent 進化,技術營銷下的本源

究其根源,AI Agent 至少有三種源流,而 OpenAI 的 AGI(通用人工智能)將其列爲重要一步,讓該詞成爲超越技術層面的流行語,但是本質上 Agent 並不是新鮮概念,即使加上 AI 賦能,也很難說是革命性的技術趨勢。

其一便是 OpenAI 眼中的 AI Agent,類似自動駕駛分級中的 L3,AI Agent 可以視作具備一定的高階輔助駕駛能力,但是還不能完全取代人。

圖片說明:OpenAI 規劃的 AGI 階段 圖片來源:https://www.bloomberg.com/

其二,顧名思義,AI Agent 是 AI 加持下的 Agent,代理機制、模式在計算機領域本不鮮見,而在 OpenAI 的謀劃下,Agent 將成爲繼對話形式(ChatGPT)、推理形式(各類 Bot)後的 L3 階段,其特點在於“自主進行某種行爲”,或者用 LangChain 創始人 Harrison Chase 的定義:“AI Agent 是一個用 LLM 來做程序的控制流決策的系統。

這就是其玄妙之處,在 LLM 出現之前,Agent 主要是執行人爲設定好的自動化過程,僅舉一例,程序員在設計爬蟲程序時,會設置 User-Agent(用戶代理),用以模仿真實用戶使用的瀏覽器版本、操作系統等細節,當然,如果使用 AI Agent 來更加細致的模仿人類行爲,那就會出現 AI Agent 爬蟲框架,這樣操作會讓爬蟲“更像人”。

在這樣的變遷中,AI Agent 的加入必須和現有場景進行結合,完全獨創的領域幾乎不存在,即使是 Curosr、Github copilot 等代碼補全和生成能力,也是在 LSP(語言服務器協議,Language Server Protocol)等思維下的進一步功能增強,這樣的例子可以舉出許多:

  • Apple:AppleScript(腳本編輯器)--Alfred--Siri--快捷指令(Shortcuts)--Apple Intelligence

  • 終端:Terminal(macOS)/Power shell(Windows)--iTerm 2--Warp(AI Native)

  • 人機交互:Web 1.0 CLI TCP/IP 網景瀏覽器--Web 2.0 GUI/RestAPI/搜索引擎/Google/Super App --Web 3.0 AI Agent + dapp ?

稍微解釋一下,人機交互過程中,Web 1.0 GUI 和瀏覽器的結合真正讓大衆可以無門檻使用電腦,代表是 Windows+IE 的組合,而 API 是互聯網背後的數據抽象和傳輸標准,Web 2.0 時代的瀏覽器已經是 Chrome 的時代,並且向移動端的轉向改變了人們對互聯網的使用習慣,微信、Meta 等超級平台的 App 覆蓋了人們生活的方方面面。

其三,Crypto 領域的意圖(Intent)概念是 AI Agent 圈內爆火的先導,不過要注意,這僅在 Crypto 內部有效,從功能殘缺的比特幣腳本到以太坊智能合約,本身就是 Agent 概念的泛用,而後催生的跨鏈橋--鏈抽象、EOA--AA 錢包都是此類思路的自然延伸,所以在 AI Agent “入侵” Crypto 之後,導向 DeFi 場景也就不足爲奇。

這就是 AI Agent 概念的混淆之處,在 Crypto 的語境下,我們實際上想實現的是“自動理財、自動打新 Meme”的 Agent,但是在 OpenAI 的定義下,這么危險的場景甚至需要 L4/L5 才能真正實現,然後大衆在把玩的是代碼自動生成或者 AI 一鍵總結、代寫等功能,雙方交流並不在一個維度。

理解了我們真正想要的是什么,接下來重點聊聊 AI Agent 的組織邏輯,技術細節會隱藏其後,畢竟 AI Agent 的代理概念就是將技術從大規模普及的障礙前移除,一如瀏覽器對個人 PC 產業的點石成金,所以我們的重心會在兩點上:從人機交互看 AI Agent ,以及 AI Agent 和 LLM 的區別和聯系,以此引出第三部分:Crypto 和 AI Agent 的結合最終會留下什么。

let AI_Agent = LLM+API;

在 ChatGPT 這類話聊式人機交互模式之前,人類和計算機的交互主要是 GUI(圖形化界面) 和 CLI (命令行界面,Command-Line interface)兩種形式,GUI 思維繼續衍生出瀏覽器、App 等多種具體形式,CLI 和 Shell 的組合甚少變化。

但這只是“前端”表面的人機交互,隨着互聯網的發展,數據量和類型的增多導致數據和數據之間,App 和 App 之間的“後端”交互也在增多,兩者互爲依托,即使是簡單的網頁瀏覽行爲,實際上也需要二者的協同與配合。

如果說人和瀏覽器、App 的互動說用戶入口,那么 API 之間的鏈接和跳轉則撐起了互聯網的實際運行,其實這也是 Agent 的一部分,普通用戶無需了解命令行和 API 等術語,即可實現自己的目的。

LLM 也是如此,現在用戶可以更進一步,連搜索都不需要,整個過程可以被描述爲以下幾個步驟:

  1. 用戶打开聊天窗口;

  2. 用戶使用自然語言,即文字或語音描述自己的需要;

  3. LLM 將其解析爲流程化的操作步驟;

  4. LLM 將其結果返回給用戶。

可以發現,在這個過程中,受到最大挑战的是谷歌,因爲用戶並不需要打开搜索引擎,而是各類類 GPT 的對話窗口,流量入口正在悄然變化,也正是如此,才會有人認爲本輪 LLM 革的是搜索引擎的命。

那么 AI Agent 又在其中起到何種作用呢?

一言以蔽之,AI Agent 是 LLM 的特化。

當前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 組織者,其能力受到較大限制,比如喫多了用戶輸入信息很容易產生幻覺,其中一個重要原因在於訓練機制,比如,如果你反復告訴 GPT 1+1=3,那么有一定概率在接下來的交互中詢問 1+1+1=?時給出答案爲 4 的可能性。

因爲此時 GPT 的反饋完全來自於用戶個人,如果該模型不聯網,那么完全有可能被你的信息改變運作機制,以後就是一個只知道 1+1=3 的弱智 GPT,但是如果允許模型聯網,那么 GPT 的反饋機制就更爲多種多樣,畢竟在網絡上認爲 1+1=2 的要佔據絕大多數。

繼續加大難度,如果我們一定要在本地使用 LLM,那么該如何避免此類問題?

一個簡單粗暴的辦法是同時使用兩個 LLM,同時規定每次回答問題必須讓兩個 LLM 互相驗證,以此降低出錯的概率,再不行還有一些辦法,比如每次讓兩個用戶處理一個進程,一個負責問,一個負責微調問題,盡量讓語言更規範、更理性一些。

當然,有時候聯網也並不能完全規避問題發生,比如 LLM 檢索到弱智吧的回答,那可能更糟糕,但是規避這些資料會導致可用數據量降低,那么完全可以將已有數據拆分和重組,甚至依據舊數據自行生產一些新數據,以此來讓回答更可靠,其實這就是 RAG (Retrieval-Augmented Generation,檢索增強生成)的自然語言理解。

人和機器需要互相理解,如果我們讓多個 LLM 相互理解和協作,本質上已經是在觸及 AI Agent 的運作模式,即人的代理去調用其他資源,甚至可以包括大模型和其他 Agent。

由此,我們掌握了 LLM 和 AI Agent 的聯系:LLM 是一系列知識的匯總,人類可以通過對話窗口與之交流,但是在實踐中,我們發現一些特定的任務流可以被歸納爲特定的小程序、Bot、指令集合,我們就把這些定義爲 Agent。

AI Agent 依然是 LLM 的一部分,兩者不能等同視之,而 AI Agent 的調用方式在 LLM 的基礎上,特別強調對外部程序、LLM 和其他 Agent 的協同,所以才有 AI Agent = LLM+API 的感慨。

那么,在 LLM 的工作流上,可以添加 AI Agent 的說明,我們以調用 X 的 API 數據爲例:

  1. 人類用戶打开聊天窗口;

  2. 用戶使用自然語言,即文字或語音描述自己的需要;

  3. LLM 將其解析爲 API 調用類 AI Agent 任務,並將對話權限轉移給該 Agent;

  4. AI Agent 詢問用戶 X 账號和 API 密碼,並根據用戶描述與 X 聯網通信;

  5. AI Agent 將最終結果返回給用戶。

還記得人機交互的進化史嗎,在 Web 1.0 和 Web 2.0 存在的瀏覽器、API 等依然會存在,但是用戶完全可以無視其存在,只需要跟 AI Agent 交互即可,而 API 調用等過程都可以用對話方式使用,而這些 API 服務可以是任意類型,包括本地的數據,聯網信息,以及外部 App 的數據,只要對方开放接口,並且用戶具備其使用權限。

一個完整的 AI Agent 使用流程如上圖,LLM 在其中可以視作和 AI Agent 分離的部分,也可以視爲一個過程的兩個子環節,但是無論如何劃分,都是在服務用戶的需求。

從人機交互的過程來看,甚至是用戶自己跟自己在對話,你只需盡情表達自己的所思所想,AI/LLM/AI Agent 會一次次的猜測你的需要,反饋機制的加入,以及要求 LLM 對當前情景上下文(Context)的記憶,可以確保 AI Agent 不會突然忘記自己在幹什么。

總之,AI Agent 是更具人格化的產物,這是其和傳統的腳本、自動化工具的本質區別,就像一個私人管家一樣去爲用戶考慮真實需求,但是必須指出,這種人格依然是一種概率推測的結果,L3 級別的 AI Agent 沒有人類的理解和表達能力,因此將其和外部 API 的對接充滿着危險。

AI 框架貨幣化之後

AI 框架竟然能貨幣化是我對 Crypto 保持興趣的重要原因,在傳統的 AI 技術堆棧中,框架並不十分重要,至少比不上數據和算力,而 AI 產品的變現方式也很難從框架入手,畢竟大部分 AI 算法和模型框架都是开源產品,真正閉源的是數據等敏感信息。

本質上而言,AI 框架或者模型是一系列算法的容器與組合,就相當於鐵鍋燉大鵝的鐵鍋,但是大鵝的品種以及火候的掌握才是味道區分的關鍵,賣的產品本應該是大鵝,但是現在來了 Web3 的客戶,他們要买櫝還珠,买鍋棄鵝。

原因並不復雜,Web3 的 AI 產品基本都是拾人牙慧,都是在已有的 AI 框架、算法和產品上改進出自己的定制化產品,甚至不同的 Crypto AI 框架背後的技術原理都相差不大,既然技術上無法區分,就需要在名稱、應用場景等方面做文章,於是 AI 框架本身的某些細微調整都成了不同代幣的支撐,因此造成了 Crypto AI Agent 的框架泡沫。

既然不需要自己投入重金訓練數據和算法,則名稱區別法就格外重要,DeepSeek V3 再便宜,也需要博士頭發和 GPU 、電力的大量消耗。

某種意義上而言,這也是 Web3 近期的一貫風格,即代幣發行平台比代幣值錢,Pump.Fun/Hyperliquid 都是如此,本來 Agent 應該是應用和資產,但是 Agent 發行框架竟然成爲最當紅產品。

其實這也是一種價值錨定思路,既然各類 Agent 並無區分度,那么 Agent 框架反而更穩定一些,能產生資產發行的價值虹吸效應,這是目前 Crypto 和 AI Agent 結合的 1.0 版本。

而 2.0 版本正在浮現,典型是 DeFi 和 AI Agent 的結合,DeFAI 的概念提出當然是熱度刺激下的市場行爲,但是如果我們把以下情況考慮在內就會發現有所不同:

  • Morpho 正在挑战 Aave 等老借貸產品;

  • Hyperliquid 正在取代 dYdX 的鏈上衍生品,甚至是挑战幣安的 CEX 上幣效應;

  • 穩定幣正在成爲鏈下場景的支付工具。

正是在 DeFi 嬗變的大背景下,AI 正在改進 DeFi 的基本邏輯,如果之前 DeFi 最大的邏輯是驗證智能合約的可行性,那么 AI Agent 則讓 DeFi 的制造邏輯發生改變,你並不需要理解 DeFi 才能制造 DeFi 產品,這是比鏈抽象更進一步的底層賦能。

人人都是程序員的時代即將到來,復雜的計算可以外包給 AI Agent 背後的 LLM 和 API,而個人只需要專注於自己的想法,自然語言可以被高效轉化爲編程邏輯。

結語

本文並未提及任何 Crypto AI Agent 代幣和框架,因爲 Cookie.Fun 已經做的足夠好,AI Agent 信息聚合和代幣發現平台,進而是 AI Agent 框架,最後才是忽生忽滅的 Agent 代幣,繼續在文內羅列信息已無價值。

但是在這一段時間的觀察中,市場上依然缺少真正對 Crypto AI Agent 指向究竟是什么的探討,我們不能總是在討論指針,內存變化才是本質。

也正是生生不息的將各類標的資產化的能力,才是 Crypto 的魅力所在。

標題:

地址:https://www.pressbased.com/post/10774.html