史丹佛 AI 專案套殼事件曝光帶動中國大模型受矚目，國內還有哪些被低估了的 AI 工作？

2024-06-04數碼

推薦下來自智源的Emu2和來自清華大學朱軍團隊的Unidiffuser，兩個文章都探討了語言生成和影像生成的多模態統一建模方法，某種意義上算是GPT-4o的平替（4o並沒有說明自己的語言-視覺-語音多模態方案是怎樣的）。

Emu2是從現在最流行的自回歸生成範式出發，將影像和文本都tokenize到離散的token進行自回歸式的建模，同時接入一個diffusion作為影像生成器（這克服了自回歸模型在影像生成的效果不夠好和效率低的問題）。個人認為GPT-4o也有可能是采用類似的自回歸+擴散模型的方案，最明顯的證據就是ChatGPT的DALL E-3還沒下架，如果自回歸已經能夠很好地做影像生成，那麽DALL E-3也就沒有存在的必要才對。

Unidiffuser則是從diffusion生成範式出發，影像生成自然是不在話下，同時引入一個GPT2LMHeadModel作為語言生成器，克服擴散模型在語言生成上效果不夠好的問題。伴隨著Sora和DiT的大火，讓大家又看到了擴散模型更大的潛力。

所以兩個可謂是殊途同歸，在目前沒有更好的統一多模態架構出來之前，自回歸GPT+擴散模型能夠起到優勢互補的作用。當然Google在Gemini技術報告裏則是說明了自己采用的是原生多模態的方案，將語音、語言、影像全部編碼為離散的token，而且也能夠自回歸地支持影像生成，但是很遺憾在技術報告裏並沒有看到影像生成的效果，主要還是報告了多模態語言生成的效果。也不排除GPT-4o也是采用了這樣大一統的架構。

Emu2程式碼連結：https:// github.com/baaivision/E mu/tree/main/Emu2