下載 beanfun! 一起SHOW!
組隊開SHOW,拼排位拿獎勵!
logo
留言
LINE
FB
複製
一句話生成60秒短片!生成式AI新星Sora厲害在哪?
DQ地球圖輯隊
更新於 5 個月前

地球一瞬,世界各地正發生這些大小事。

註:本文為單一事件快訊報導,非深度文章

Photo: OpenAI

從和人無礙對談、寫程式到通過Google的工程師面試,OpenAI的生成式AI已經展露過眾多能力,現在他們又掌握了一項新技能:拍影片。新亮相的AI模型「Sora」讓用戶能夠用短短一句話,生成長達1分鐘的擬真影片。

「為您介紹Sora,我們的文字轉視訊模型。Sora可以在保證畫面品質及遵守用戶提示詞的前提下,生成長達1分鐘的影片,」OpenAI在官網中表示。

Sora厲害在哪?真真假假讓你分不清

生成影片的AI其實並不新鮮,從Google、Meta等科技巨頭,到成立不滿一年的新創Pika Labs等公司,都發表過生成影片的AI技術。

而Sora最大的特點在於極其逼真,外媒《Wired》聲稱,這是沒有在其他影片生成AI模型中看見過的真實感,並且生成的影片長於其他模型。

根據OpenAI在官網上的介紹,Sora能夠生成包含多名角色、特定動作類型以及大量細節的複雜場景,而且AI不僅了解用戶在提示詞所說的各種物體,還知道這些物體是如何存在於現實世界,進而營造出讓人驚豔的逼真感受。

還能精準理解你要什麼

另外,Sora也對語言有著深入理解,可以準確的呈現提示詞所說內容,生成吸引目光的飽滿角色,且可以在一段影片中建立多種不同的鏡頭,並精準保留角色及視覺的風格。

OpenAI也在官網上揭露了大量演示影片,例如一名女子走在東京街頭的短片,其提示詞為:

「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子,拎著一個黑色包包,戴著太陽眼鏡,擦著紅色口紅,走起路來自信又隨性。潮濕的街道反射出七彩燈光,行人熙來攘往。」

(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

這段1分鐘的短片裡,雖然從招牌文字、道路布局到路人過於平滑的移動等等存在不少破綻,但乍看之下仍然極為逼真,若是焦點放在時尚女子身上的話,或許一時半會沒辦法注意到這是全然由AI生成的影片。

且不光是具有現實感的現代影片,在提示詞:「淘金熱時的加州歷史鏡頭。」(Historical footage of California during the gold rush)裡,Sora就為影片打上了充滿年代感的濾鏡,不過包含建築布局等仍有一些仔細看便能發現的不合理之處。

Sora還是有弱點的

OpenAI指出,目前的模型存在弱點,難以精準模擬複雜場景裡的物理原理,並且不太能理解因果關係,假如要求Sora生成一個人吃餅乾的影片,可能畫面中咬了一口餅乾後,餅乾仍然完好無缺。同時Sora還有些左右不分、難以精確呈現隨時間變化的事件等問題。

至於生成這樣一部充滿真實感的影片需要花上多長時間?OpenAI沒有公佈具體用時,僅向媒體透露所費時間大約是「出門吃一餐墨西哥捲餅」,

Sora還有些功能沒有對外展示,例如從一幅圖像生成短片,或者替既有影片填補上缺少的幀數,甚至延伸內容。OpenAI研究人員比爾.皮布斯(Bill Peebles)表示,「這是一種提高講故事能力非常酷的方式。你可以畫出想法,然後使其成為現實。」

目前Sora還無法撼動電影產業,因為每次生成的內容多少有所差異,不可能將120部1分鐘影片串成電影。但對於TikTok等短影音平台來說,將是顛覆性的新工具,即使是普通民眾也能利用AI技術生成高品質的短片。

被拿來生成假消息怎麼辦?OpenAI正與各界合作防範安全問題

不過如此逼真的影像生成能力,若被有心人士用來生成假消息,該怎麼辦?這也是為何OpenAI還沒有公開發布Sora的原因之一,目前該模型僅提供攻擊模擬團隊(red team)和少數藝術家、設計師及電影製作人使用。

OpenAI強調,目前他們正在開發能夠檢測假消息的工具,並計畫嵌入C2PA的後設資料(metadata),例如先前在Dall-E 3中,生成的圖像檔案資料上就會顯示該圖片是使用Dall E打造。除此之外,OpenAI聲稱也將一併包含Dall-E 3既有的使用規範,拒絕生成名人,以及暴力、性或仇恨內容。

OpenAI聲稱,他們正在與各國政府、教育人士及藝術家合作,以了解各界的擔憂及如何正向使用。

「就如我們無法預測所有正向的使用方式,我們也無法預先知道所有惡意使用方式。」

他們在官網上表示,「這也是為什麼我們認為從在現實世界的使用中學習,打造及發布更安全AI系統的關鍵。」


加入 DQ地球圖輯隊 LINE Notify ,一起看透全世界


延伸閱讀:
「有5%內容是由ChatGPT撰寫」芥川賞得主用AI寫反烏托邦科幻小說「真真假假,假假真真的AI時代」劍橋詞典2023年度代表字:Hallucinate「假新聞退散!」2024大選之年,社群將嚴格規範換臉、AI機器人


參考資料:

你可能也會喜歡
還想看更多你喜愛的文章嗎?
© 2024 Gamania Group
下載 beanfun! 一起SHOW!
組隊開SHOW,拼排位拿獎勵!
留言
轉傳
複製
beanfun! 採用網站分析技術為您帶來更優質的使用體驗,若您點選 "我同意" 或繼續瀏覽本網站,即表示您同意我們使用第三方 Cookie,欲瞭解更多資訊請見 隱私權政策。
下載beanfun!
瘋狂生活從 beanfun! 開始~
掃描 QR Code 立即下載
APP Store 或 Google Play 搜尋 beanfun! 下載
APP Store 搜尋 beanfun! 下載
Google Play 搜尋 beanfun! 下載
溫馨提醒您:於行動裝置安裝防護軟體
可提升裝置使用安全性
下載beanfun! 豐富你的內容
安裝應用程式,享有更多文章、小說和精彩的互動!
取消