市場新聞

爲什么DeepSeek讓硅谷恐慌?

By 量子號 2025-01-31 04:11
爲什么DeepSeek讓硅谷恐慌?

來源:量子號

金融界大約在一個月後才开始對 DeepSeek 感到恐慌,但當這種恐慌真的出現時,英偉達的市值就縮水了超過 5000 億美元(約合 3.6 萬億元人民幣),相當於一整個星際之門。不僅僅是英偉達,特斯拉、谷歌、亞馬遜和微軟的市值都出現了下滑。

據 Scale AI 首席執行官亞歷山大·王稱,DeepSeek 相繼發布的兩個人工智能模型,可與美國實驗室的最佳模型相媲美。而且 DeepSeek 似乎是在有限的條件下工作的,這意味着它的訓練成本要比美國同行低得多。據說,其最近的一個模型的最終訓練成本僅爲 560 萬美元(約合 4060 萬元人民幣),這與美國人工智能專家的薪水差不多。去年,Anthropic 公司首席執行官達裏奧·阿莫代伊表示,訓練模型的成本從 1 億美元(約合 7.25 億元人民幣)到 10 億美元(約合 72.51 億元人民幣)不等。據首席執行官薩姆·奧特曼稱,OpenAI 的 GPT-4 成本超過 1 億美元(約合 7.25 億元人民幣)。DeepSeek 似乎顛覆了我們對人工智能成本的看法,並可能對整個行業產生巨大影響。

這一切都發生在短短幾周內。聖誕節當天,DeepSeek 發布了一個推理模型(v3),引起了廣泛關注。其第二個模型 R1 於上周發布,被風險投資家、特朗普總統顧問馬克·安德森稱爲“我見過的最令人驚嘆、最令人印象深刻的突破之一”。特朗普的人工智能和加密專家大衛·薩克斯表示,DeepSeek 模型的進步表明,“人工智能競賽將非常激烈” 。除了訓練數據外,這兩個模型都是部分开源的。

DeepSeek 的成功讓人質疑,是否真的需要數十億美元的計算能力才能贏得人工智能競賽。傳統觀點一直認爲,大型科技公司將在人工智能領域佔據主導地位,原因很簡單,因爲它們有闲錢來追逐進步。現在看來大型科技公司只是在燒錢。計算出這些模型的實際成本有點棘手,因爲正如 Scale AI 的王指出的那樣,由於制裁,DeepSeek 可能無法如實說出它擁有哪種和多少 GPU。

Hugging Face 研究主管萊昂德羅·馮·維拉表示,即使批評者是正確的,DeepSeek 也沒有如實說明其擁有的 GPU 數量(餐巾紙數學表明他們使用的是優化技術,這意味着他們說的是實話),开源社區也用不了多久就會發現。他的團隊上周末开始復制和开源 R1 配方,一旦研究人員能夠創建自己的模型版本,“我們很快就會發現數字是否正確。”

什么是 DeepSeek?

DeepSeek 成立兩年,由首席執行官梁文鋒領導,是中國首屈一指的人工智能初創公司。該公司由浙江大學工程師創立的對衝基金分拆而來,專注於“可能改變遊戲規則的架構和算法創新”,以打造通用人工智能(AGI)——至少梁文鋒是這么說的。與 OpenAI 不同的是,該公司還聲稱自己已經盈利。

2021 年,梁开始購买數千塊英偉達 GPU(就在美國對芯片實施制裁之前),並於 2023 年推出 DeepSeek,目標是“探索通用人工智能的本質”,即與人類一樣聰明的人工智能。與 OpenAI 首席執行官奧特曼和其他行業領袖一樣,梁也有很多高談闊論。“我們的目標是通用人工智能,”梁在接受採訪時說,“這意味着我們需要研究新的模型結構,以有限的資源實現更強的模型能力。”

DeepSeek 正是這樣做的。該團隊採用了一些創新的技術方法,使其模型能夠更高效地運行,並聲稱 R1 的最終訓練運行成本爲 560 萬美元(約合 4060 億元人民幣)。這比 OpenAI 的 o1 降低了 95%。DeepSeek 並沒有從零开始,而是以現有的开源模型爲起點來構建人工智能——具體來說,研究人員使用 Meta 的 Llama 模型作爲基礎。雖然該公司的訓練數據組合沒有披露,但 DeepSeek 確實提到它使用了合成數據或人工生成的信息(隨着人工智能實驗室似乎遇到數據瓶頸,這一點可能會變得更加重要)。

在沒有訓練數據的情況下,我們並不清楚這在多大程度上是對 o1 的“復制”——DeepSeek 是否使用了 o1 來訓練 R1?在 12 月第一篇論文發布時,奧特曼發文稱“復制你知道有效的東西(相對)容易”,而“在你不知道是否有效的情況下,做一些新的、冒險的、困難的事情是極其困難的。”因此,DeepSeek 的說法是,它不會創建新的前沿模型;而只是復制舊模型。OpenAI 投資者喬舒亞·庫什納似乎還說,DeepSeek“是根據硅谷領先的前沿模型訓練出來的”。

OpenAI 前政策研究員邁爾斯·布倫戴奇稱,R1 使用了兩個關鍵的優化技巧:更高效的預訓練和思維鏈推理強化學習。DeepSeek 找到了使用更便宜的 GPU 來訓練人工智能的更聰明的方法,其中一部分幫助是使用一種較新的技術,要求人工智能通過反復試錯(強化學習)一步步“思考”問題,而不是模仿人類。這種組合讓模型在使用更少計算能力和資金的情況下,實現了 o1 級的能力。

“DeepSeek v3 以及之前的 DeepSeek v2 基本上是與 GPT-4 相同的模型,只是採用了更巧妙的工程技巧,以便在 GPU 方面獲得更多的回報,”布倫戴奇說。

需要說明的是,其他實驗室也採用了這些技術(DeepSeek 使用了“專家混合”技術,只針對特定查詢激活模型的部分功能。GPT-4 也採用了這種方法)。DeepSeek 版本通過創建更精細的專家類別並开發更有效的交流方式,對這一概念進行了創新,從而使訓練過程本身更加高效。DeepSeek 團隊還开發了一種稱爲 DeepSeekMLA(多頭潛意識)的技術,通過壓縮模型存儲和檢索信息的方式,大大減少了運行人工智能模型所需的內存。

令世界震驚的不僅僅是這些模型的架構,而是它能在幾個月內如此迅速地復現 OpenAI 的成就,而不是通常人工智能重大進步之間需要一年以上的時間,布倫戴奇補充道。

OpenAI 將自己定位爲在構建先進人工智能方面具有獨一無二的能力,而這一公衆形象剛好贏得了投資者的支持,以打造全球最大的人工智能數據中心基礎設施。但 DeepSeek 的快速復現表明,技術優勢不會持續太久——即使公司試圖對其方法保密。

“在某種程度上,這些封閉型公司顯然依靠人們認爲他們正在做最偉大的事情而生存,這就是他們維持估值的方法。也許他們爲了籌集更多資金或建立更多項目而誇大了一點,”馮·維拉說。“至於他們是否誇大了自己的內部實力,沒人知道,但這顯然對他們有利。”

談錢

自 2022 年 OpenAI 發布 ChatGPT 以來,投資界一直對人工智能抱有幻想。問題不在於我們是否正處於人工智能泡沫之中,而在於“泡沫真的是好事嗎?”(“泡沫被賦予了不公平的負面含義,”深水資產管理公司在 2023 年寫道。)

目前還不清楚投資者是否了解人工智能的工作原理,但他們還是希望人工智能至少能廣泛地節約成本。普華永道於 2024 年 12 月發布的一份報告顯示,在接受調查的投資者中,有三分之二的人預計人工智能將提高生產率,還有類似數量的人預計利潤也會增加。

從炒作周期中獲益最多的上市公司是英偉達,該公司生產人工智能公司使用的復雜芯片。人們認爲,在人工智能淘金熱中,購买英偉達股票就是投資制造鏟子的公司。無論誰在人工智能競賽中佔主導地位,他們都需要大量英偉達芯片來運行模型。12 月 27 日,英偉達的股價收於 137.01 美元(約合 993.42 元人民幣)——幾乎是 2023 年 1 月初英偉達股價的 10 倍。

DeepSeek 的成功顛覆了推動英偉達股價飆升的投資理論。如果該公司確實在更有效地使用芯片(而不是簡單地購买更多芯片),那么其他公司也會开始這樣做。這可能意味着英偉達最先進的芯片的市場規模會縮小,因爲各家公司都在努力削減开支。

“英偉達的增長預期確實有點‘樂觀’,所以我認爲這是必要的反應,”Databricks 人工智能副總裁納文·拉奧說。“英偉達目前的營收不太可能受到威脅;但過去幾年的大幅增長可能會受到影響。”

受這一投資理念推動的公司不止英偉達一家。2023 年,英偉達、Meta、亞馬遜、特斯拉、蘋果、微軟和字母表這“七巨頭”的表現超過了市場上的其他公司,價值增長了 75%。他們在 2024 年延續了這一驚人的牛市,除微軟外,其他公司的表現都優於標准普爾 500 指數。其中,只有蘋果和 Meta 沒有受到 DeepSeek 事件的影響。

這股熱潮並不局限於公开市場。隨着風險投資公司紛紛向該領域投入資金,OpenAI 和 Anthropic 等初創公司也創下了令人眼花繚亂的估值——分別達到 1570 億美元(約合 11384 億元人民幣)和 600 億美元(約合 4350 億元人民幣)。盈利能力並不是一個大問題。OpenAI 預計 2024 年虧損 50 億美元(約合 363 億元人民幣),盡管它的預計收入爲 37 億美元(約合 268 億元人民幣)。

DeepSeek 的成功表明,僅僅投入大量資金並不像許多公司和投資者想象的那樣具有保護作用。它暗示,小型初創企業與巨頭相比更有競爭力——甚至可以通過技術創新顛覆已知的領軍者。因此,雖然這對巨頭來說是個壞消息,但對小型人工智能初創企業來說可能是個好消息,尤其是因爲其模型是开源的。

因此,雖然這對巨頭來說是個壞消息,但對小型人工智能初創企業來說可能是個好消息,尤其是因爲其模型是开源的。Hugging Face 的馮·維拉認爲,更便宜的訓練模型實際上不會減少 GPU 需求。“如果你能在較小的規模上建立一個超級強大的模型,爲什么不再次擴大規模呢?”他問道。“你所做的自然是你想出了如何做更便宜的東西,爲什么不擴大它的規模,並構建一個雖然還要花更多錢但更好的版本呢。”

優化是必需的

但 DeepSeek 不僅擾亂了投資格局,也是一記明確信號。DeepSeek 模型所取得的進步表明,即使實施出口管制,競爭對手國家也能輕而易舉地趕上美國最先進的技術。

蘭德公司專家倫納特·海姆和牛津大學專門研究產業政策的博士生黃思浩(音)認爲,對最先進芯片的出口管制於 2023 年 10 月正式开始,相對較新,其全部影響尚未顯現。

DeepSeek 表明,盡管計算能力有限,你仍然可以通過優化實現創新,而美國則在原始能力上押下重注——從奧特曼與特朗普合作的價值 5000 億美元(約合 36254 億元人民幣)的“星際之門”項目就可見一斑。

“像 DeepSeek 的 R1 這樣的推理模型需要使用大量 GPU,正如 DeepSeek 在爲更多用戶提供應用服務時很快就遇到了麻煩一樣,”布倫戴奇說。“鑑於這一點,以及擴大強化學習將使 DeepSeek 的模型比現在更強大這一事實,美國對 GPU 實施有效的出口管制比以往任何時候都更爲重要。”

有些人對 DeepSeek 的成就是否如描述的那樣表示懷疑。“我們質疑 DeepSeek 的成就是在沒有使用先進 GPU 進行微調和/或構建最終模型所基於的底層大型語言模型的情況下取得的,”花旗分析師阿蒂夫·馬利克在一份研究報告中說。“‘DeepSeek 以 500 萬美元復現 OpenAI’ 的說法似乎是完全錯誤的,我們認爲這確實不值得進一步討論,”伯恩斯坦分析師史黛西·拉斯岡在自己的報告中表示。

對於其他人來說,出口管制似乎適得其反:非但沒有減緩競爭對手國家的發展速度,反而迫使其進行創新。雖然美國限制了先進芯片的獲取,但 DeepSeek 和阿裏巴巴旗下的通義千問等公司找到了創造性的解決方法——優化訓練技術,利用开源技術,同時开發自己的芯片。

毫無疑問,有人會想知道這對通用人工智能意味着什么,最精明的人工智能專家都認爲,通用人工智能只是爲了吸引資本的空中樓閣。(去年 12 月,OpenAI 的奧特曼明顯降低了通用人工智能的標准,從可以“提升人類”的東西降低到“比人們想象的要無足輕重得多”的東西。)由於人工智能超級智能在很大程度上還只是一種想象,因此我們很難知道它是否有可能實現——更不用說 DeepSeek 已經朝着這個方向邁出了合理的一步。從這個意義上說,該公司的鯨魚標志是正確的;這是一個充滿“亞哈”(《白鯨》中的虛構人物)的行業。人工智能的終局誰也說不准。

對未來人工智能領導者的要求

人工智能一直是個過度發展的故事:數據中心消耗的能源相當於一個小國的規模,訓練耗資數十億美元,而且只有科技巨頭才能玩這個遊戲。對很多人來說,DeepSeek 的出現似乎完全顛覆了這種觀點。

雖然 DeepSeek 這樣的模型似乎可以通過降低訓練成本來解決破壞環境的人工智能問題,但遺憾的是,事情並沒有那么簡單。布倫戴奇和馮·維拉都認爲,更高效的資源意味着公司可能會使用更多的計算能力來獲得更好的模型。馮·維拉還表示,這意味着規模較小的初創公司和研究人員將能更容易地獲得最佳模型,因此對計算的需求只會增加。

DeepSeek 對合成數據的使用也不是革命性的,不過它確實表明,人工智能實驗室有可能在不破壞整個互聯網的情況下創造出一些有用的東西。但這種破壞已經造成;互聯網只有一個,而且它已經訓練出了對下一代具有基礎意義的模型。合成數據並不能完全解決尋找更多訓練數據的問題,但它是一種很有前途的方法。

DeepSeek 所做的最重要的事情就是:更便宜。你不必精通技術也能明白,強大的人工智能工具可能很快就會變得更加經濟實惠。人工智能領導者已經作出承諾,進步將很快到來。一個可能的變化是,現在有人可以在自己的車庫裏制造前沿模型了。

通用人工智能競賽很大程度上只是一種想象。然而,錢卻是實實在在的。DeepSeek 已經有力地證明,僅僅有錢並不能讓一家公司佔據該領域的領先地位。其長期影響可能會重塑我們所熟知的人工智能產業。

標題:

地址:https://www.pressbased.com/post/10971.html