在OpenAI研發(fā)出Sora后不久,谷歌Deep Mind團(tuán)隊(duì)公開(kāi)了在世界模型領(lǐng)域的新進(jìn)展——基礎(chǔ)世界模型Genie。該模型主要借鑒非對(duì)抗方式進(jìn)行訓(xùn)練,可根據(jù)各類圖像乃至草圖生成具有豐富動(dòng)作表現(xiàn)的2D世界,從而實(shí)現(xiàn)人們與虛構(gòu)世界的深度互動(dòng)。只需輸入一張圖像,Genie便可構(gòu)建一個(gè)全新的交互環(huán)境。
DeepMind指出,Genie有能力根據(jù)最新的文生圖大模型生成初始幀,再借助Genie的能力賦予這些圖像更深層次的含義。Genie作為一個(gè)包含110億參數(shù)的基礎(chǔ)世界模型,成功研發(fā)得益于谷歌聲名在外的潛在動(dòng)作模型,用于推斷視頻幀間的運(yùn)動(dòng),視頻分詞器則可以將原始視頻幀轉(zhuǎn)化為離散標(biāo)記,而動(dòng)態(tài)模型則負(fù)責(zé)預(yù)測(cè)下一幀的活動(dòng)情況。
值得注意的是,相較于號(hào)稱“高清晰度、高真實(shí)感”的Sora, Genie似乎更注重潛在行為的預(yù)測(cè),而不是極力展現(xiàn)畫面的真實(shí)性?,F(xiàn)階段,從圖像或文本中生成高質(zhì)量視頻尚未成為Genie關(guān)注的核心業(yè)務(wù)點(diǎn)。DeepMind進(jìn)一步透露,Genie主要圍繞“2D平臺(tái)類游戲及大約率算法”展開(kāi)應(yīng)用,這種處理方法具有廣泛適應(yīng)性,可應(yīng)用于各領(lǐng)域,也可以擴(kuò)展至更大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)集。
然而,這個(gè)還在試驗(yàn)階段的Genie尚不能視為商業(yè)產(chǎn)品問(wèn)世。據(jù)DeepMind人士解釋,Genie的訓(xùn)練視頻為160x90像素且每秒僅10幀的超低分辨率視頻,生成的模擬游戲以每秒1幀的速率運(yùn)行。因此,實(shí)際場(chǎng)景更為復(fù)雜且要求更高實(shí)時(shí)性的商業(yè)應(yīng)用仍需耐心等待解決方案。
-
DeepMind
+關(guān)注
關(guān)注
0文章
130瀏覽量
10838 -
genie
+關(guān)注
關(guān)注
0文章
7瀏覽量
4282 -
OpenAI
+關(guān)注
關(guān)注
9文章
1074瀏覽量
6471 -
大模型
+關(guān)注
關(guān)注
2文章
2410瀏覽量
2624
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論