市場新聞

OpenAI正式發布Sora 一文看懂它的文生視頻功能到底強在哪？

By 極客公園 2024-12-10 03:26

來源：極客公園

正如外界猜測的那樣，在爲期 12 天直播的第三天，OpenAI 正式發布了文生視頻產品 Sora。

北京時間 12 月 10 日凌晨兩點，Sam Altman 和幾位 OpenAI 內部員工通過直播，展示了 Sora 的功能和實際用例。繼今年 2 月釋出視頻樣片後，Sora 引發了全球人工智能界熱潮，此後國內外人工智能公司紛紛推出文生視頻產品。而作爲這一賽道的开創者，今天 Sora 終於揭开了神祕面紗。

整體來說，Sora 展示的一系列產品功能，表明其在視頻生成的質量、功能的獨創性、技術的復雜度等方面，超出了目前的文生視頻產品。

在文、圖生視頻的基礎功能之上，它加入了故事板（相當於通過分鏡創作自己的故事）、用文本調整原視頻、不同場景視頻的融合等功能（相當於給視頻直接加特效），整個產品功能設計似乎都在讓視頻更接近創作者的自我表達、幫助他們完成一個理想的鏡頭故事。

當地時間 12 月 9 日晚些時候，美國、以及大多數其他國家的用戶，可以訪問官網體驗 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的會員訂閱中，無需額外付費。其中，Plus 能生成最多 50 個高級視頻、視頻分辨率最高達 720p、時長爲 5 秒，而 Pro 則能生成最多 500 個高級視頻、分辨率高達 1080p、時長爲 20 秒、還能去水印。

Sam Altman 介紹做 Sora 有三大原因：

一是從工具性角度，OpenAI 喜歡爲創意人員制作工具，這對公司的文化很重要；

二是從用戶交互角度，人工智能系統不能只通過文本交互，也應該理解並生成視頻，幫助人類使用人工智能。這類似於國內大模型公司談到的，「模型每擴展一次模態，用戶滲透率就會上升。」

三則是從技術角度，這對 OpenAI 的 AGI 路线圖至關重要，人工智能應該學到更多關於世界的規律，這正是所謂理解物理規律的「世界模型」。

既要用技術改變世界，也要用產品促進人類創造，這就是 Sora 在做的事情。

01 生成視頻之外，還能分鏡、加特效、無限創作

Sora 最基礎的，首先是文生視頻、圖生視頻功能。

打开主界面，用戶可以查看和管理所有的視頻生成內容，並且切換網格視圖、列表視圖，以及創建文件夾和收藏夾，查看書籤等。研究人員稱這個主界面設計，是爲了更好地幫助用戶創作故事。

在主頁面的中間底部，是 Sora 的文生視頻、圖生視頻功能。

比如，Sam Altman 先給到文字輸入，「長毛猛獁象在沙漠中行走，廣角鏡頭拍攝」。接着，需要選擇視頻的畫面比、分辨率、時長（5-20 秒）、以及最終生成的視頻數量（最多可生成四段以供挑選）等，才能獲得生成的視頻。

最終，可以看到生成的視頻效果非常真實、有質感，且基本遵照了輸入的指令。對於 Sora 視頻生成效果的出色表現，或許人們是不意外的。

輸入「長毛猛獁象在沙漠中行走，廣角鏡頭拍攝」的文字後，Sora 生成了四段視頻 | 圖片來源：OpenAI

但此次，Sora 還發布了一系列獨有的、進階的的產品功能。在極客公園看來，這些功能基本圍繞視頻的更准確表達，也就是通過分鏡、加特效等等方式，讓人們能通過視頻創作出一個自己想要的故事。

首先是故事板（storyboard），它被研究人員稱爲是一種「全新的創意工具」。

從產品設計上看，它相當於按時間軸的方式，把一段故事（視頻）切成了多個不同的故事卡（視頻幀)。用戶只需要設計和調整每張故事卡（視頻幀)，Sora 會自動把它們補成一段流暢的故事（視頻）——這很像電影裏的分鏡、動畫的手稿，當導演畫好分鏡、一個片子就拍出來了，一個漫畫師寫好手稿、一個動畫就設計出來了。

比如研究人員設想的第一個分鏡是，「美麗的白鶴站在小溪中，擁有一條黃色的尾巴。」第二個分鏡是，「鶴將頭探入水中，並捉出一條魚」。那他做的工作就是，分別創建這兩張故事卡（視頻幀)，並在兩者之間設大概五秒鐘的間隔。這個間隔對 Sora 很重要，給了它把兩組動作連起來的發揮空間。

最終，他得到了一個完整的視頻鏡頭，「美麗的白鶴站在小溪中，它擁有一條黃色的尾巴。接着鶴將頭探入水中，並捉出一條魚。」

通過兩張故事卡（視頻幀)，Sora 生成了一個完整的故事（視頻) | 圖片來源：OpenAI

更爲奇妙的是，在這個故事板上，創作要素不只是故事卡，也可以是直接的圖片、視頻。也就是說，可以將任意的圖片、視頻拉到故事板上，結合故事卡，對它進行創作。

以視頻爲例，研究人員將上述白鶴的視頻切下來導入故事板，進行了剪切，這就給視頻的前方和後方留出了繼續創作的間隙，也就是說可以有新的开頭和結尾。

這帶來的想象是，故事板可以無限的創作下去。也就是說 Sora 生成的 20 秒視頻，可以被不斷地創造、剪切、創造……直至完全達到心目中理想的鏡頭。這個過程就像一個剪輯師、導演，通過對分鏡設計和鏡頭素材的不斷生成剪輯，慢慢剪出自己心中的片子。

和真實世界中不同，Sora 提供的素材是無限的。而和其他的文生視頻產品不同，Sora 的視頻是可以修改加工的。這使得它生成的視頻一定會更符合用戶心中的想象、創意。

這似乎正是 Sora 此次產品的核心思路：盡最大可能地，讓生成的視頻符合用戶心中想要的創意。

這樣可以更好理解 Sora 的其他功能，比如可以通過文字直接修改視頻、可以無縫融合兩段不同的視頻、可以給視頻改變畫風等，這相當於是直接給視頻加「特效」了。而一般的文生視頻產品，可能需要不斷地調整 prompt（提示詞）、不斷重新生成視頻。

通過調整文字，用戶可以直接調整視頻 | 圖片來源：OpenAI

Sora 能將兩個兩段視頻合並爲一段無縫剪輯 | 圖片來源：OpenAI

總的來說，Sora 除了在生成視頻上不出意料的出色表現之外，它還帶來了更獨有的視頻創作產品功能，相當於給視頻加分鏡、剪輯、特效。這意味着，每個人都有機會創作出自己真正想要的表達，離當一個導演也更近了。

「如果你帶着期望進入 Sora，認爲你只需要點擊一個按鈕就可以生成一部電影，那么我認爲你的期望是錯誤的。」OpenAI 研究人員說道。

他表示，Sora 是一種工具，允許人們同時在多個地方、嘗試多個想法，嘗試以前完全不可能的事情，「實際上我們認爲這是創作者的超級特殊延伸。」

02 服務大衆還不單獨收費，還是靠底層模型的能力

作爲文生視頻賽道的开創者，Sora 的推出時間算是最晚的。對此，OpenAI 研究團隊表示，爲了對 Sora 進行廣泛的部署，需要找到讓模型更快、更便宜的辦法。爲此，研究團隊做了大量的工作。

在直播中，OpenAI 宣布推出 Sora turbo，這是原始 Sora 模型的新高端加速版本。它具有今年早些時候 OpenAI 在「世界模擬技術」報告中談到的所有功能，此外還增加了從文本生成視頻、動畫圖像和混合視頻等功能。這是此次 Sora 產品功能背後的技術基礎。

看起來相比文字，視頻的推理成本更高，但此次 OpenAI 並沒有單獨針對 Sora 收費。20 美元/月的 ChatGPT Plus 會員、以及 200 美元/月的 ChatGPT Pro 會員，都可以使用 Sora。

前者的權益包括最多 50 個高級視頻、分辨率達 720p，時長爲 5 秒，後者的權益包括最多 500 個高級視頻、無限普通視頻，分辨率高達 1080p、持續時間爲 20 秒、並且下載無水印。

不同會員對 Sora 的使用額度｜圖片來源：OpenAI

Sora 對 OpenAI 的意義不止於此。團隊發現，視頻模型在大規模訓練時會展現出許多有趣的新能力，使得 Sora 能夠模擬現實世界中人、動物和環境的某些方面。「我們的結果表明，擴展視頻生成模型是構建物理世界通用模擬器的一條有希望的道路。」

或許正是因此，讓 Sora 盡快被大衆用起來、用數據更好地訓練世界模型，對於 OpenAI 最終的 AGI 夢想如此重要。

在迭代技術的路上，也順帶推動了人類的創造。

「這個版本的 Sora 會犯錯誤，它並不完美，但它已經到了我們認爲它將對增強人類創造力非常有用的地步。我們迫不及待地想看看世界將用它來做什么。」締造它的 OpenAI 如此說道。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：OpenAI正式發布Sora 一文看懂它的文生視頻功能到底強在哪？

地址：https://www.pressbased.com/post/9963.html