2月15日,OpenAI在官網釋出最新的生成式AI模型Sora,它能根據使用者輸入的文字描述,產生最長1分鐘的高畫質影片。

雪域草原上,三隻毛茸茸的猛瑪象緩緩地向你走來,景深使得畫面看起來更加逼真。這段影片就出自Sora之手,只要短短輸入不到100字,影片就能自動生成,《冰原歷險記》中的蠻尼就能從卡通版變成真實版。

Sora生成的影像品質,逼近好萊塢電影

Sora的名字取自日語中的天空「そら」一詞。OpenAI技術背後的團隊成員說,之所以選擇這個名字,是因為Sora將喚起無限創造潛力的點子。

去年聖誕節前夕,OpenAI執行長奧特曼(Sam Altman)通過X向網友徵集意見,並承諾2024年公司一定不會讓大家敲碗的願望落空。其中一個就是能自動生成「影片」的AI模型。沒想到才2月中,我們就能看到這個強大新工具。

其實這不是個新概念,去年4月,紐約新創公司Runway AI就曾推出過相同的產品,但產出的影片只有4秒鐘,還畫質模糊、斷斷續續。但Sora則是擁有令人驚豔的高品質,它更逼真,也更人性化。《紐約時報》評論道,「這看起來像是從好萊塢電影中擷取的片段。」

Sora會讓攝影師失業?

而Sora出現後,許多AI詠唱師紛紛在社群討論,又多了一種術式可以練習。

這群人,是生成式AI相關的應用百花齊放後誕生的新職業,簡單講他們就像是提示工程師,負責給予AI模型指令,讓它們能替人類工作。例如,怎麼描述才能達到心目中想要的照片。

過去幾年,DALL-E、Midjourney 和其他靜止圖像生成器蓬勃發展,由AI所產製的圖片和照片,人類幾乎難以辨別,這讓網路上的虛假資訊變得更猖狂,也影響許多數位藝術家的生計。

現在,除了攝影師、平面設計師,又有一批新的人要加入「擔心哪天要失業」的行列,包含影片素材庫的製作人、電影製作人、演員,以及一些新創公司的創辦人。

從靜態圖片走到影片,對AI來說是極為複雜與挑戰的任務,它需要理解圖像、聲音與動作,還有判斷脈絡合理性的能力。

OpenAI承認,目前的模型具有有弱點。例如,它可能難以準確類比複雜場景的物理特性,或無法理解因果關係的具體實例,像是一個人咬了一口餅乾後,餅乾卻沒有出現咬痕。

AI生成影片,Sora會帶來什麼危險?

目前,Sora還沒有像聊天機器人ChatGPT一樣對公眾開放,僅進入封閉測試階段,OpenAI正在與一小群學者和其他外部研究人員分享這項技術,並組織了「紅隊演練」,即模擬未來駭客或使用者不當使用此技術的情境,提前設想解方。

但這並未削弱學者與大眾的擔憂。因為深度偽造(deepfake)對選舉的影響已經有據可查,包含複製政治人物的聲音、臉型製作虛假影片以傳遞虛假訊息。它既難以追蹤,又難以辨識,具備破壞選舉的潛力。

「我非常害怕這種事情會影響一場競爭激烈的選舉,」華盛頓大學(University of Washington)專門研究AI的教授奧倫・埃齊奧尼(Oren Etzioni)告訴《紐約時報》。他還是True Media的創始人,這是一家非營利組織,致力於在政治運動中識別網路中的虛假資訊。

彭博科技專欄作家帕米・奧爾森(Parmy Olson)說道:「令人擔憂的是,沒有人,甚至包括奧特曼,都不知道這些工具發佈後會產生什麼樣的影響。」

資料來源:YouTubeOpenAI紐約時報彭博

核稿編輯:吳和懋
責任編輯:林易萱