在 DeepSeek 24 小時前剛剛發(fā)布了 V3 模型 0324 版本更新之后,OpenAI 似乎真的有點「不甘示弱」的較勁感,在北京時間 3 月 26 日凌晨宣布了新產(chǎn)品的發(fā)布預(yù)告。
雖然在正式開始之前,有一些傳言猜測本次有可能發(fā)布 GPT-5,但根據(jù)以往 OpenAI 的各種產(chǎn)品發(fā)布節(jié)奏來看,這次并不會是一次重磅更新,但本次直播中,發(fā)布的整合進 ChatGPT 中的新版 Sora,還是給大家?guī)淼囊饬现獾摹腹?jié)目效果」。
目前,整合進 ChatGPT 中的 Sora,相比于獨立應(yīng)用版本,能力暫時被局限在了圖像生成,但據(jù) OpenAI 在直播中介紹,該模型比之前的模型有了質(zhì)的飛躍。
據(jù)介紹,開發(fā)團隊使用了GPT-4o「全模態(tài)」(或可以生成文本、圖像、音頻和視頻等任何類型數(shù)據(jù)的模型)能力為基礎(chǔ),來開發(fā)這個版本的 Sora。因此用戶可以直接說出自己的需求,甚至上傳或者拍一張照片,作為提示詞來使用。
比如直播現(xiàn)場的演示環(huán)節(jié),就直接用手機給 Sam Altman 在內(nèi)的三人來了張自拍,并要求 Sora 生成一張「動漫風(fēng)格的版本」。
這還沒完,他們?nèi)松踔吝€現(xiàn)場演示了讓 Sora 在圖片上添加一段文本「Feel The AGI」(感受通用人工智能)?,F(xiàn)場畫了第一張新版 Sora 的表情包。
這個現(xiàn)場生成的表情包不僅文本準(zhǔn)確清晰,并且準(zhǔn)確理解了當(dāng)代流行梗圖中的包括粗體字等必備元素,已經(jīng)能直接拿來當(dāng)梗圖發(fā)到各種群里了。
由于是 OpenAI 官方帶頭整活,評論區(qū)也有不少用戶也被激發(fā)熱情,嘗試著把相同的提示詞喂給 Grok,用相同的提示詞和照片,生成同樣風(fēng)格的內(nèi)容 ———— 但顯然效果還是比新版 Sora 差了不少,反而帶來了更喜感的效果。
除了帶頭畫梗圖,OpenAI 還演示了新版本 Sora 在文本渲染方面的改進,可以讓在圖像上生成沒有拼寫錯誤的連貫文本的成功率明顯提升。
在另一個演示場景中,OpenAI 團隊讓 Sora 去生成一幅用于理解相對論的漫畫卡片。
不同于以往生圖模型中,在文本生成部分經(jīng)常容易變得混亂不堪,甚至是「AI 造字」的情況發(fā)生,新版 Sora 其原生圖像生成,生成的文本,已經(jīng)沒有任何明顯錯亂,甚至還在漫畫生成了非常自然流暢的日文,意外的讓日文社區(qū)的不少日本用戶「炸鍋」。
對于圖片生成模型來講,過去正確渲染文本是一個巨大的挑戰(zhàn)。如果小標(biāo)題或文本元素有拼寫錯誤或錯誤,整個圖像都可能變得無法使用。
此外在這個案例中,OpenAI 還演示了類似對相對論這樣「世界上現(xiàn)有知識」的正確引用。
「如果我畫一張圖像,我會受到自身技能的限制……以及我積累的所有世界知識的限制,」 ChatGPT多模態(tài)產(chǎn)品負(fù)責(zé)人 Jackie Shannon 在接受媒體采訪時解釋這個功能的必要性。
「該模型將世界知識代入其中,因此當(dāng)你要求生成牛頓棱鏡實驗的圖像時,你無需解釋「牛頓棱鏡實驗」這件事它本身是什么,就能得到準(zhǔn)確的圖像?!?/strong>
除了上述這些直播中提到的模型能力改進,OpenAI 還表示新版 Sora 大幅提升了在屬性和對象之間保持正確關(guān)系的能力。例如,綁定能力較差的模型可能會將要求生成藍(lán)色星星和紅色三角形的提示詞,生成為紅色星星而沒有三角形。
據(jù) OpenAI 介紹,現(xiàn)有的大多數(shù)圖像模型在這方面都很容易「犯錯」,尤其是當(dāng)被要求渲染多個項目(通常在5到8個左右)時,經(jīng)常會混淆顏色和形狀。而新版 Sora 的圖像生成功能,可以正確綁定15到20個對象的屬性,在理解各自的復(fù)雜需求的同時,保證不會被誤導(dǎo),從而大幅提高成功率。
除了這些使用體驗上的改進,還有一個細(xì)節(jié)是,OpenAI 已經(jīng)確認(rèn),新版 Sora 生成圖像的時間比以前更長,但 OpenAI 認(rèn)為這是一個值得的權(quán)衡。
「雖然我們在延遲方面肯定還有改進的空間……但(我們覺得)這些生成圖片的質(zhì)量、功能和世界知識,確實彌補了用戶需要等待的額外幾秒鐘,」Shannon說。
至于生圖領(lǐng)域的安全問題 —— 從去年到今年已經(jīng)出現(xiàn)多次偽造名人不雅圖像、熱點事件虛假圖像,以及 Google Gemini 去除照片原水印這樣的問題,OpenAI 團隊強調(diào)新版 Sora 已經(jīng)可以去除照片水印,同時阻止生成性深度偽造圖像,并拒絕生成相關(guān)的內(nèi)容請求。同時所有生成的圖像都將包含標(biāo)準(zhǔn)的C2PA元數(shù)據(jù),以標(biāo)記該圖像是由OpenAI創(chuàng)建的。
目前,新版集成在 ChatGPT 內(nèi)的 Sora 圖像生成模型功能,已經(jīng)開放給 Pro 和 Plus 訂閱套餐的用戶,并且 OpenAI 承諾,新版 Sora 也會在不久的將來,提供給免費版本和 API。
現(xiàn)在我最想做的,就是立即讓它幫我畫自己的梗圖了。
登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。