12月5日消息,美國時間周三,谷歌旗下的人工智能研究機構(gòu)DeepMind發(fā)布了新模型Genie 2。這款升級版模型能夠生成“無窮無盡”的多樣化3D世界,為交互式實時場景的創(chuàng)建開辟了新途徑。
Genie 2是今年早些時候推出的Genie模型的升級版本。通過輸入一張圖片和一段文字描述,例如“一個可愛的機器人置身于茂密的森林中”,Genie 2可以構(gòu)建出一個實時互動的3D場景。這一能力與李飛飛創(chuàng)立的World Labs和以色列初創(chuàng)公司Decart開發(fā)的類似模型頗為相似。
DeepMind表示,Genie 2能夠生成“極其豐富多樣”的3D世界,用戶可以通過鼠標(biāo)或鍵盤在這些世界中完成跳躍、游泳等操作。通過大量視頻數(shù)據(jù)訓(xùn)練,該模型具備模擬物體交互、動畫效果、光照、物理現(xiàn)象、反射效果以及“NPC”(非玩家角色)行為的能力。
Genie 2生成的許多場景在視覺效果上堪比3A級視頻游戲。這一現(xiàn)象可能源于模型訓(xùn)練數(shù)據(jù)中包含了熱門游戲的游玩記錄。然而,出于競爭和保密原因,DeepMind與其他許多AI實驗室一樣,并未透露其具體的數(shù)據(jù)來源和訓(xùn)練方法。
Genie 2的推出也引發(fā)了對知識產(chǎn)權(quán)的討論。作為谷歌的子公司,DeepMind可以不受限制地訪問YouTube,而谷歌此前也曾暗示,其服務(wù)條款允許將YouTube視頻用于模型訓(xùn)練。然而,Genie 2是否在生成內(nèi)容時無意間構(gòu)成了對原始游戲的“未經(jīng)授權(quán)復(fù)制”,仍需法律裁決。
DeepMind表示,Genie 2能夠從不同視角(如第一人稱視角和等距視角)生成連貫的虛擬世界,這些場景最長可持續(xù)一分鐘,大多數(shù)情況下為10至20秒。
DeepMind在博客中寫道:“Genie 2能夠根據(jù)鍵盤操作作出智能反應(yīng),精準(zhǔn)識別角色并正確移動。例如,模型可以判斷方向鍵應(yīng)控制機器人的移動,而非樹木或云朵。”
盡管如此,目前類似Genie 2的模型在模擬游戲及3D環(huán)境時仍面臨“人造感”、連貫性缺失以及“幻覺”等技術(shù)挑戰(zhàn)。例如,Decart開發(fā)的《我的世界》模擬器Oasis存在分辨率低、無法記住關(guān)卡布局等問題。
相比之下,Genie 2能記憶并精準(zhǔn)渲染模擬場景中未顯示的部分,這與李飛飛World Labs的模型能力不謀而合。
鑒于當(dāng)前技術(shù)限制,Genie 2生成的游戲仍存在每分鐘清除玩家進度的問題,趣味性有限。因此,DeepMind將其定位為一種研究和創(chuàng)意工具,用于“交互體驗”原型設(shè)計和AI智能體的評估。
DeepMind在博客中表示:“得益于Genie 2卓越的泛化能力,概念藝術(shù)和草圖可以輕松轉(zhuǎn)化為完全互動的環(huán)境。研究人員可以利用它快速創(chuàng)建豐富多樣的AI訓(xùn)練環(huán)境,以生成模型訓(xùn)練期間未遇到的評估任務(wù)。”
這一技術(shù)對創(chuàng)意行業(yè),特別是視頻游戲領(lǐng)域,可能帶來復(fù)雜影響。《連線》雜志的調(diào)查顯示,像動視暴雪這樣的公司正利用AI技術(shù)縮減成本、提升效率,其中包括大規(guī)模裁員。
與此同時,谷歌在世界模型領(lǐng)域的投入仍在持續(xù)增長,這一領(lǐng)域有望成為AI發(fā)展的下一重大突破。去年10月,DeepMind招募了此前負責(zé)OpenAI視頻生成器Sora開發(fā)的蒂姆·布魯克斯(Tim Brooks)負責(zé)視頻生成技術(shù)和世界模擬器的研發(fā)。
兩年前,DeepMind還從Meta挖來了因《NetHack》等電子游戲的“開放性”實驗而聞名的蒂姆·羅克塔謝爾(Tim Rockt?schel)。
來源:網(wǎng)易科技報道
撫順眾聯(lián)網(wǎng)絡(luò)公司轉(zhuǎn)載
撫順網(wǎng)絡(luò)公司 撫順網(wǎng)絡(luò) 撫順軟件公司