中新網(wǎng)北京2月22日電(記者 袁秀月)“給它讀一遍《三國(guó)演義》試試”“《三體》可以直接小說轉(zhuǎn)電影了”……近日OpenAI發(fā)布首個(gè)文生視頻模型Sora,在網(wǎng)上迅速刷屏,不少網(wǎng)友躍躍欲試,期待將來用AI還原小說中的場(chǎng)景。
還有人預(yù)測(cè),以后人人都能拍出自己滿意的影視劇了。將來這會(huì)實(shí)現(xiàn)嗎?或者說,離實(shí)現(xiàn)這點(diǎn)還有多遠(yuǎn)?
把小說輸進(jìn)AI,然后呢?
在談?wù)揝ora之前,不得不提到,當(dāng)前很多影視游戲行業(yè)人士已經(jīng)將AIGC(人工智能生成內(nèi)容)應(yīng)用于內(nèi)容制作上。
來自四川的博主馮先生(“AI瘋?cè)嗽骸?在CG領(lǐng)域工作了15年,從事過影視特效后期、游戲研發(fā)等。他表示,現(xiàn)在影視行業(yè)正廣泛接納AI的進(jìn)入,目前主要應(yīng)用于影視前期的概念設(shè)計(jì)、舞臺(tái)設(shè)計(jì)等,一些動(dòng)畫團(tuán)隊(duì)、游戲開發(fā)公司也正布局或引入AI生產(chǎn)線。
馮先生最近在短視頻平臺(tái)發(fā)布了多條《西游記》系列AI概念動(dòng)畫,獲得了近百萬的播放量。他告訴記者,他使用的工具是AI繪畫工具M(jìn)idjourney和AI視頻生成工具Runway。
“每個(gè)鏡頭要先構(gòu)思好,然后通過Midjourney畫出畫面,一個(gè)鏡頭可能要畫上千張,最后選出一張,‘猴王問世’那集我畫了三四千張,最后選出一百個(gè)左右鏡頭,再把這些鏡頭拿給AI工具生成動(dòng)畫,然后進(jìn)行剪輯。臺(tái)詞先設(shè)計(jì)好,用AI配音來配,有些特殊的我會(huì)自己配音,再用變聲器調(diào)整效果。”
馮先生說,用AI制作這樣一段視頻需花費(fèi)一周左右,但若人工制作可能需要幾個(gè)月。他表示,一般做動(dòng)畫,需要概念設(shè)計(jì)、原畫、2D逐幀分鏡、3D場(chǎng)景搭建等流程,但如果有AI輔助的話,只需有原畫,AI就會(huì)幫你出畫面并生成動(dòng)畫效果,中間過程會(huì)省去很多。
而Sora的問世或?qū)⑦@個(gè)過程省去更多。在馮先生看來,Sora能夠在一個(gè)畫面里生成多個(gè)鏡頭,這是他以往使用的工具做不到的,這也就意味著將來能創(chuàng)作出更流暢、完整的作品。
那么,把小說輸進(jìn)去,能得到滿意的視頻嗎?馮先生認(rèn)為,還需要一個(gè)過程,快的話可能等個(gè)三四年。“其實(shí)技術(shù)上的都不是難題,難在人類能夠理解各個(gè)不同國(guó)家的文學(xué)作品,了解它的背景和不同的文化元素,但AI還沒有很好理解這些東西!
馮先生提到,在他用AI工具創(chuàng)作的過程中,能夠明顯感覺到它對(duì)不同文化的了解并不透徹,比如說中國(guó)文化,看起來風(fēng)格相像,但仔細(xì)看衣服的紋飾和盔甲的造型并不真實(shí)存在。
不過他也表示,AI的學(xué)習(xí)是呈指數(shù)級(jí)增長(zhǎng)的,從畫面抽象到能理解畫面的豐富性和風(fēng)格,僅迭代了一年多時(shí)間。Sora確實(shí)存在瑕疵,但這只是AI的迭代過程,在未來不是什么大事。
Sora問世,人人成為導(dǎo)演?
雖然目前Sora還未對(duì)公眾開放,但不少人認(rèn)為其意義不亞于1年前ChatGPT的發(fā)布。從技術(shù)角度來講,Sora強(qiáng)在哪里?
北京師范大學(xué)教育學(xué)部副教授張進(jìn)寶表示,Sora采用了擴(kuò)散模型和Transformer架構(gòu)的結(jié)合(Diffusion Transformers, DiTs)。擴(kuò)散模型通過逐漸添加噪聲來破壞圖像,然后學(xué)習(xí)逆向過程來恢復(fù)圖像。Transformer架構(gòu)則可以捕捉圖像中的全局依賴關(guān)系。
Sora的生成過程可以分為以下幾個(gè)步驟:將文本描述轉(zhuǎn)換為一系列的語(yǔ)義向量;將語(yǔ)義向量輸入到模型中,生成視頻的潛在表示;將潛在表示解碼為像素,生成最終的視頻。
張進(jìn)寶說,目前我們看到的是Sora使用了大量的視頻和圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,包括電影、電視劇、紀(jì)錄片、游戲畫面等。這些數(shù)據(jù)集涵蓋了各種場(chǎng)景、人物和動(dòng)作,為模型提供了豐富的學(xué)習(xí)素材。
在他看來,Sora的誕生不僅標(biāo)志著視頻生成技術(shù)的重大進(jìn)步,也為內(nèi)容創(chuàng)作、媒體、娛樂等行業(yè)帶來了前所未有的機(jī)遇和挑戰(zhàn)。例如:Sora的出現(xiàn)預(yù)示著視頻生成領(lǐng)域的競(jìng)爭(zhēng)將變得更為激烈,推動(dòng)多模態(tài)AI以及各種AI應(yīng)用場(chǎng)景的快速發(fā)展,特別是在需要真實(shí)世界建模的行業(yè)。與傳統(tǒng)的影視制作相比,使用Sora的生產(chǎn)過程更簡(jiǎn)單,投資成本更低,創(chuàng)意結(jié)果更快速。
張進(jìn)寶認(rèn)為,Sora讓創(chuàng)作者可以更自由地使用AI工具表達(dá)自己的想法,減少了工業(yè)流程的約束,為內(nèi)容創(chuàng)作提供了新的視角和工具。雖然目前Sora還無法完全取代傳統(tǒng)的影視制作,但其強(qiáng)大的能力表明,依靠AI輔助人類創(chuàng)造力的方向越來越明確,這可能會(huì)重新定義影視內(nèi)容的創(chuàng)作和消費(fèi)方式。
“這也是AI引起那么多討論的原因之一,會(huì)給大家?guī)韷毫,其?shí)我身邊的從業(yè)者基本沒受到影響,如果你是一個(gè)成熟有經(jīng)驗(yàn)的美術(shù)或特效,并不會(huì)受到太大影響,它會(huì)成為你的一個(gè)輔助工具。”馮先生認(rèn)為,即便有AI,人人成為導(dǎo)演也不現(xiàn)實(shí),最后還是掌握在少數(shù)專業(yè)人的手里。
中國(guó)影協(xié)科幻電影工作委員會(huì)執(zhí)行秘書長(zhǎng)馬賀亮在接受媒體采訪時(shí)也表示,短期內(nèi)與概念設(shè)計(jì)、視頻預(yù)覽相關(guān)的崗位會(huì)在一定程度上受到Sora的影響,但它所能呈現(xiàn)的效果其實(shí)還達(dá)不到院線電影的級(jí)別,而且電影在創(chuàng)作上有主觀立場(chǎng)、視角和表達(dá),觀看時(shí)有情感交流和情感投射,遠(yuǎn)不是簡(jiǎn)單生成一段視頻就能代替,因此AI作為技術(shù)輔助手段的確已經(jīng)在改變電影制作方式與流程,能優(yōu)化提升電影創(chuàng)作,但要說它能“顛覆整個(gè)電影行業(yè)”,還為時(shí)過早。
AI還有哪些可能性?
“潘多拉的盒子既然已經(jīng)打開,指望它關(guān)上太不現(xiàn)實(shí)了。”在馮先生看來,除了繪畫、做視頻、文案等,AI還有更大的發(fā)展空間。
“Sora模型所展示出的能力,可以讓人們進(jìn)一步暢想更多的應(yīng)用可能,為各個(gè)領(lǐng)域帶來新的變革和創(chuàng)新!睆堖M(jìn)寶舉例,比如在教育領(lǐng)域中,可用于制作個(gè)性化的教學(xué)視頻,模擬實(shí)驗(yàn)和場(chǎng)景,用于創(chuàng)建虛擬課堂,提供更加便捷的教育資源。
在醫(yī)療領(lǐng)域,可用于制作醫(yī)學(xué)動(dòng)畫,幫助醫(yī)生和患者更好地理解病情;模擬手術(shù)過程,幫助醫(yī)生進(jìn)行術(shù)前規(guī)劃和訓(xùn)練;進(jìn)行遠(yuǎn)程醫(yī)療,為偏遠(yuǎn)地區(qū)患者提供便捷的醫(yī)療服務(wù)。在科研領(lǐng)域,可用于模擬科學(xué)實(shí)驗(yàn),生成科學(xué)數(shù)據(jù)可視化,構(gòu)建虛擬世界,用于科學(xué)研究和探索。在商業(yè)領(lǐng)域,可用于制作產(chǎn)品宣傳視頻、創(chuàng)建虛擬展廳,用于市場(chǎng)調(diào)查和分析,幫助企業(yè)更好地了解客戶需求,等等。
與此同時(shí),Sora可能帶來的風(fēng)險(xiǎn)也備受關(guān)注,比如可能被用于造假或欺騙,Sora生成的內(nèi)容可能存在偏見或錯(cuò)誤,等等。法律界人士認(rèn)為,隨著AI技術(shù)的發(fā)展,法律上的監(jiān)管也需要跟上。服務(wù)者或提供者在算法設(shè)計(jì)、訓(xùn)練數(shù)據(jù)選擇、模型生成和優(yōu)化、提供服務(wù)等過程中,也需要采取有效措施防止產(chǎn)生各類歧視,同時(shí)避免制作、復(fù)制、發(fā)布、傳播虛假信息。
在張進(jìn)寶看來,智能化將全面滲透人類社會(huì),人們將在廣泛使用各類智能技術(shù)提升競(jìng)爭(zhēng)力與完成任務(wù)的過程中,學(xué)會(huì)理解技術(shù)、捕捉新興技術(shù)的潛力,推動(dòng)社會(huì)有秩序的動(dòng)態(tài)發(fā)展!安蹲娇萍及l(fā)展新動(dòng)態(tài),在可控范圍內(nèi)做出正確的決策,考驗(yàn)的不僅僅是一個(gè)人,而是整個(gè)社會(huì)的應(yīng)變能力。”(完)
責(zé)任編輯:崔景靚