DeepSeek的意義不僅止於改變AI遊戲規則

來源:FT中文網
一年之前的國內春節假期期間,OpenAI在當地時間2024年2月15日發布了文生視頻大模型Sora,在幾段sora生成的視頻中,絲滑的運鏡和幾可亂真的呈現效果,讓當時仍處於模仿和跟隨階段的國產大模型界陷入巨大的震驚和悲觀情緒中。一時之間“投降論”甚囂塵上,投資人和大廠們紛紛出來勸說創業者們放棄幻想,轉攻應用,大模型創業是“死路一條”。
誰又能想到,在短短一年之後的這個春節,大家討論的是一款名叫DeepSeek國產大模型。除了科技圈的討論和刷屏之外,其應用开始深入千家萬戶,有更多的普通人开始使用DeepSeek定制減肥食譜、編輯節日祝福、寫藏頭詩,甚至算命。
到現在爲止,DeepSeek一共推出了三代模型。去年5月,幻方量化旗下的DeepSeek發布了DeepSeek-V2,能力號稱對標GPT-4,價格卻僅爲GPT-4的近1%,低廉的價格引發了國產大模型長達一整年的價格战;到了12月,DeepSeek發布了新大模型DeepSeek-V3,將訓練成本降到幾百萬美元,被譽爲“價格屠夫”;而這次發布的DeepSeek-R1,直接對標OpenAI o1.其中“深度思考”和“聯網搜索”功能的上线,讓DeepSeek成功登頂中美兩區免費榜第一。
可以看出,DeepSeek推出的三代模型技術演進的節奏很明確,V2將價格打了下來,但是性能方面似乎優勢還不太明顯;V3在成本超低的前提下,性能逐漸跟了上來;直到R1,在價格依然低廉的基礎上性能對齊了國際上最先進的大模型,真正達到了破圈的效果。而在節奏明確的同時,其技術更新用時也越來越少,V2發布後到V3用了大半年,但V3到R1,中間只隔了短短一個月。
我曾經在今年年初的展望中提到DeepSeek這個去年五月才嶄露頭角的初創公司。當時我曾預測,DeepSeek一定會成爲新的一年大模型市場的破局者。其低廉的成本和價格證明國產大模型在算力和芯片受限的基礎上並不是無路可走。而其以創業公司的身份“單挑”一衆財大氣粗的大廠,更是駁斥了之前的AI“投降論”,給了其他創業者們繼續在大模型領域深耕的信心。
但是更重要的是DeepSeek除了價格低廉又完全开源开放,這打破了科技和資本巨頭們在模型訓練中的馬太效應。這本來是最近兩年裏圍繞人工智能的深層憂慮之一:芯片越來越貴,訓練成本越來越高,全球幾個大模型逐漸變得封閉甚至“寡頭化”,算力和數據越來越掌握在少數幾個公司手裏,AI的入場券越來越貴,絕大多數人在這場AI技術革命中有可能只能做個旁觀者。
前不久特朗普上台之後宣布的Stargate(星際之門)計劃的實施會更加強化這個效果。這個雄心勃勃的AI基建計劃規模高達5000億美元,由軟銀、甲骨文和OpenAI主導。美國政府做靠山,大公司主導,然後巨額資金入場……很明顯,這個項目的最終目的就是要靠資本、芯片和算力的軍備競賽,讓美國在這場AI技術革命中永遠獨佔鰲頭。
DeepSeek的出現,最起碼消解了星際之門計劃給中國AI界帶來的焦慮。當資本和算力的疊加不再是技術進步的唯一途徑,這對創業者和开發者們意味着什么,科技圈的每個人應該都能預知到。
也正因爲這一點,DeepSeek現如今在輿論場中被譽爲“國運級別的創新”。且不說將“國運”跟一家創業公司掛鉤到底是不是捧殺,在見過華爲和TikTok的過往之後,將一家公司提上政治高度,架在大國博弈的前线,對悲觀情緒剛剛有所逆轉的中國科技界沒有任何好處。
既然DeepSeek用开源將AI入場券“平民化”,那么未來在AI成本迅速降低的基礎上,AI在各行業的應用和創新會進一步爆發。當下的討論和思考更應該回歸到市場和技術本身的意義:如何營造一個良好的市場環境,讓技術革新能得到正向反饋;創業者和普通人又如何用AI改變自己周圍的世界。
標題:
地址:https://www.pressbased.com/post/11058.html