當前位置: 華文問答 > 數碼

史丹佛 AI 專案套殼事件曝光帶動中國大模型受矚目,國內還有哪些被低估了的 AI 工作?

2024-06-04數碼

推薦下來自智源的Emu2和來自清華大學朱軍團隊的Unidiffuser,兩個文章都探討了語言生成和影像生成的多模態統一建模方法,某種意義上算是GPT-4o的平替(4o並沒有說明自己的語言-視覺-語音多模態方案是怎樣的)。

Emu2是從現在最流行的自回歸生成範式出發,將影像和文本都tokenize到離散的token進行自回歸式的建模,同時接入一個diffusion作為影像生成器(這克服了自回歸模型在影像生成的效果不夠好和效率低的問題)。個人認為GPT-4o也有可能是采用類似的自回歸+擴散模型的方案,最明顯的證據就是ChatGPT的DALL E-3還沒下架,如果自回歸已經能夠很好地做影像生成,那麽DALL E-3也就沒有存在的必要才對。

Unidiffuser則是從diffusion生成範式出發,影像生成自然是不在話下,同時引入一個GPT2LMHeadModel作為語言生成器,克服擴散模型在語言生成上效果不夠好的問題。伴隨著Sora和DiT的大火,讓大家又看到了擴散模型更大的潛力。

所以兩個可謂是殊途同歸,在目前沒有更好的統一多模態架構出來之前,自回歸GPT+擴散模型能夠起到優勢互補的作用。當然Google在Gemini技術報告裏則是說明了自己采用的是原生多模態的方案,將語音、語言、影像全部編碼為離散的token,而且也能夠自回歸地支持影像生成,但是很遺憾在技術報告裏並沒有看到影像生成的效果,主要還是報告了多模態語言生成的效果。也不排除GPT-4o也是采用了這樣大一統的架構。

Emu2程式碼連結:https:// github.com/baaivision/E mu/tree/main/Emu2

Emu2模型架構

Unidiffuser程式碼連結:https:// github.com/thu-ml/unidi ffuser

Unidiffuser實作文到圖、圖到文、圖文聯合生成
Gemini的統一多模態結構

參考文獻:

[1]Generative Multimodal Models are In-Context Learners (https:// arxiv.org/abs/2312.1328 6 )

[2]One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale (https:// arxiv.org/abs/2303.0655 5 )

[3]Gemini: A Family of Highly Capable Multimodal Models(https:// arxiv.org/pdf/2312.1180 5 )

[4]Hello GPT-4o (https:// openai.com/index/hello- gpt-4o/ )