顛覆視頻創作?Sora還需“學好物理”
最近幾天,OpenAI公司發布的視頻生成大模型Sora成了全世界關注的焦點。它究竟會給我們的生活帶來怎樣的影響?連日來,記者專訪了幾位人工智能領域的專家,專家表示,Sora還遠未達到理解自然規律的地步,仍有很長的路要走。
廣州日報全媒體記者 肖歡歡(除署名外)
一山更比一山高?Sora來自“組合拳”式技術創新
著名人工智能研究專家、創新工場人工智能工程院執行院長王詠剛表示,OpenAI公布的樣例視頻連貫、流暢、穩定,與提示文本的符合程度極高,無論是時長還是質量都遠超此前的視頻生成技術。“初步看,Sora是人工智能發展史上的又一個里程碑,是文生視頻領域的‘GPT-3時刻’。”他認為,AI大模型從文本信息處理進化到多模態信息處理,Sora可能是其中至關重要的一環。“AI從處理文本一躍提升到能高質量處理或生成視頻,這意味著AI對世界的理解達到了一個全新的高度。通俗來說,ChatGPT使AI學會了讀書寫字,Sora的發布則代表AI初步學會了‘拍攝’視頻或電影短片,今年很可能掀起AI視頻技術與應用發展的巨大浪潮。”
王詠剛介紹,從ChatGPT到Sora,兩種技術之間有明確的繼承與發展關系。Sora的技術突破主要得益于兩個方面:第一,融合了兩大生成式AI技術――雖然在整體算法框架上沿用了圖像生成領域常用的Diffusion模型,但在框架內部巧妙融入ChatGPT使用的Transformer來編碼和表達視頻中的時空信息,得到了名為Diffusion Transformer的組合模型。根據技術報告,Sora在視頻生成時涌現的精準、連貫的表達能力就源自這種組合拳式的科技創新。第二,發揮GPT的特長,改進標注質量――Sora使用類似GPT-4的技術對訓練用的樣本視頻做了重新標注,從根本上解決了目前視頻訓練數據缺乏高質量標注的問題。“現在經過GPT重新標注,AI可以知道訓練視頻中的人長什么樣子、穿什么衣服、手從哪里運動到哪里、身體呈現什么姿勢等。顯然AI可據此學有關這個世界運動規律的更多知識。”
“OpenAI首先研發出ChatGPT和GPT-4,現在又把ChatGPT的核心技術與視頻生成的流行技術框架結合起來,可以說Sora是站在ChatGPT的肩膀上,一山更比一山高。”
多模態同步推進 未來AI的AGI水平將極大提高
原云天勵飛聯合創始人、首席科學家王孝宇博士是人工智能領域的資深科學家,連日來他也密切留意著Sora帶來的影響。王孝宇認為,在具體功能方面,Sora能部分模擬人或事物在現實世界中的存在方式,并由此產生一定水準的情感表達;在生成視頻質量上,Sora高清的畫質、豐富的細節,尤其是在處理遮擋和場景連貫性上,跟之前的模型相比有了質的飛躍。
王孝宇介紹,OpenAI這些年一直在進行多模態同步推進,比如說將視頻轉化成文字,利用AI給視頻精準配音等。“打個比方,生成視頻先需要文本,但先輸入的這句話機器不一定能理解,先用ChatGPT重新寫一遍,將prompt(提示詞)轉化成Sora能夠理解的文字,然后再進行視頻創作;同時,也會把訓練視頻轉化成Sora可以理解的文字。這些技術是相互夯實、相互搭臺的,而不是相互替代。所以,Sora的技術架構并不復雜,只不過它跳脫出以前大家做文生視頻的思路。”
王孝宇表示,Sora正是在多模態演進和高質量數據學習的基礎上,實現了視頻涌現機制,生成的視頻連貫性比較高,并且能大概理解真實世界的一些規律。“AI技術方面最大的進步不一定是基礎技術的進步,工程學、呈現效果的進步也是進步,Sora的最大意義在于,它讓學界認識到通過文字和視頻的橋接來提升AI的AGI(通用人工智能)水平是有可能的。未來Sora和ChatGPT結合,將極大提高AI的AGI水平。”
AI功能莫過分夸大 邏輯推理、自然規律理解能力待提高
王詠剛表示,盡管Sora在文本生成視頻方面有了質的提升,但并不能將其功能過分夸大。“它還遠遠沒有達到掌握物理規律的地步。”
在王詠剛看來,“機器學習完全理解自然界規律”還是一個遙遠的命題。“Sora在技術上并沒有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇,不大可能在智力水平上躍升到另一個完全不同的境界。”
對此,王孝宇也表示認同。他表示,Sora的“文生視頻”技術還不是完美的,還有很多不連貫性,比如說,視頻中人的手指有時會多一根或者少一根,它還不能準確地理解現實世界。“一個模型能生成逼真視頻,并不能代表它理解了物理世界,從目前來看,Sora并沒有完全掌握現實世界的物理規律,因為也是看著視頻學習,它可供學習的樣本相當有限。模型的預測能力依賴于其訓練數據的多少和質量,對于那些超出訓練數據分布的新情況,模型可能無法精確預測。要知道,現實世界的復雜性遠超過任何模型能夠通過有限數據學習到的經驗。” 王孝宇說,這就像天氣預報一樣,即便人類掌握了足夠多的衛星云圖和氣象資料,也還是難以精確預報每一次臺風的最終走向。“所以,它只能部分模擬現實世界,掌握人或者其他物體在現實世界中的存在方式。我同意現在有些學者的觀點,只讓 AI看視頻是學不成世界模型的,它還不能用作現實世界的可靠模擬,在邏輯推理上還有很大的進步空間。”
AI大模型未來將向哪個方向發展?王詠剛說,大語言模型的評估是一個復雜的課題,但即便如此,對AI大模型能力的評估數據仍然是其改進的關鍵一環。他認為,目前AI體現出的寫作水平、繪畫水平比較強,在某些方面可以接近人類的專業水平,但在邏輯推理上,AI的“智力水平”大概還處在人類孩童的階段,無法處理過于復雜的邏輯問題,也無法完全依照人類指令完成所有任務。“缺乏復雜邏輯推理能力,對世界的認知不夠準確,難以完全按人類要求工作,這是阻礙AI應用落地的最核心問題。目前最流行的AI應用還停留在知識問答、陪伴式聊天、辦公文案生成、輔助編程、輔助設計等領域,只有更進一步提高AI的邏輯推理能力及可控性,AI相關應用才能更進一步普及。”
隨便看看:
相關推薦:
網友評論:
推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件