當前位置: 華文問答 > 數碼

什麽是大模型?超大模型和 Foundation Model 呢?

2022-10-08數碼

大模型=基礎模型 (Foundation Model),模型參數為數億到數十億。

超大模型:模型參數更大 的大模型,通常有數萬億個參數,因此學習能力更強。

下面從定義、技術背景和套用場景來詳細聊聊~

基礎模型(Foundation Model,即大模型)

定義

2021年8月,史丹福大學人類中心人工智能研究所(HAI)發表了一篇研究:On the Opportunities and Risk of Foundation Models,首次提出了Foundation Model的概念:即在多種任務和領域中具有 廣泛適用性 大型預訓練模型

這些模型之所以被稱為「基礎」,因為它們可以作為許多下遊任務的起點,透過微調或進一步訓練來適應特定的套用。如圖所示,我們可以理解成大模型(基礎模型)是一個地基,給它不同的材料(訓練數據),就可以搭建不同的房子(套用於不同的場景)。

技術基礎

大模型的技術基礎主要是深度學習,包括預訓練與微調、transformer架構:

1.預訓練與微調(Pre-training and Fine-tuning):

預訓練: 基礎模型首先透過無監督或自監督學習方法,在大規模的數據集上進行預訓練。透過與訓練,模型能夠學習到豐富的特征表示和數據中的潛在結構。

微調: 預訓練完成後,模型會針對特定的下遊任務進行微調,以提高效能;通常在有標註的數據上進行模型訓練(監督學習)和模型效能最佳化。

2.Transformer架構

基礎模型通常是在Transformer架構的基礎上構建的。

Transformer最早是Google在2017年的Attention Is All You Need論文中提出,解決了傳統的序列到序列(sequence-to-sequence,Seq2Seq)模型在處理可變長序列時遇到的問題。

傳統的序列模型(如RNN、LSTM)難以捕捉序列的長距離依賴關系,即序列中相隔較遠的元素之間的關聯。Transformer透過自註意力機制,使得模型能夠直接關註序列中任意兩個位置,從而有效地捕捉這種長距離依賴。

上圖是Transformer的組成。左半部份是編碼器(Encoder),主要作用是將輸入數據編碼成電腦能理解的高維抽象表示。它的核心是由多個 自註意力層 前饋神經網絡 組成的。

右半部份是解碼器(Decoder),主要作用是利用高維表示資訊生成目標序列。它的結構與編碼器大致相同(註意力層+前饋神經網絡),不同的點是采用了掩碼註意力層(Masked Attention),且中間部份,利用了Encoder的輸出結果計算交叉註意力(Cross Attention)。

(如果想詳細了解transformer的原理,可以參考我的這篇知乎回答:

)

簡而言之,transformer的核心是 註意力機制 ,它解決了傳統序列模型處理可變長序列的 遺忘 問題。且它能進行平行計算,能有效提升計算效率,所以被廣泛套用於基礎模型中。

套用場景

透過預訓練和微調,大模型的套用場景非常豐富,在自然語言處理、音訊處理、多模態任務處理等均表現出色。

自然語言理解和生成: 在機器轉譯、文本摘要、問答系統、聊天機器人等領域,大模型可以生成流暢自然的語言,理解復雜的查詢。例如,谷歌推出的BERT-Large模型有3.4億個參數,它是NLP領域的重要突破。

音訊處理: 大模型在語音辨識、語音合成、語音轉譯等任務中也表現出色。例如DeepMind的WaveNet是一個大型的生成模型,用於生成自然的人聲。

多模態任務: 大模型也可以套用在需同時處理文本和影像的任務中,如影像標註和影片理解。OpenAI的CLIP模型是一個大型的多模態模型,它可以理解影像和對應的文本描述。

如今,大模型具有廣闊和豐富的套用場景,初創公司和行業巨頭也紛紛投入到這場大模型競賽中,試圖透過開發獨具特色的大模型來搶占市場份額。對於個人而言,大模型也能成為生產利器,幫助我們成為AI時代的超級個體。

如果你想跟緊時代前沿,把握技術風口,可以參加這門知乎知學堂聯合AGI課堂推出的 AI大模型免費公開課 ,特邀圈內技術大佬幫我們全面解讀大模型技術

在兩天的免費課程中,我們可以了解大模型發展歷程與訓練方法、Prompt Engineering、利用LangChain+Fine-tune客製大模型套用等知識,最終利用大模型為我們賦能。添加助教老師微信還可以 領取大模型資料包、免費無翻墻的大模型工具網址 等資源,不要錯過啦~

超大模型(Very Large Model)

超大模型和大模型的主要區別在於 模型參數的差異 :大模型(基礎模型)的參數通常在數億到數十億參數之間,而超大模型是大模型的擴充套件,它們通常擁有高達數萬億個參數。這些模型的規模和復雜性帶來了更高級的學習能力。

在自然語言處理領域: OpenAI的GPT3.5是一個典型的超大模型,擁有1750億個參數,它在包括寫作、轉譯、推理等多種語言任務上展示出了驚人的效能;最新推出的GPT4在更為龐大的訓練數據基礎上訓練,其在生成響應時能夠考慮超過 1 萬億個參數。

在音訊辨識領域: Jukebox是一個能夠生成音樂的超大模型,包括旋律、節奏、和聲等元素,它可以創作不同風格和藝術家的音樂作品。

在多模態任務上: DALL-E模型是一個超大型的生成模型,它可以根據文本描述生成相應的影像,展示了強大的創造力;GPT-3 with vision模型是一個跨模態的超大模型,它能處理影像輸入並生成描述。

研究表明,隨著模型的規模(如參數數量、數據量、計算量)增大,其效能通常會隨之提高,(即 縮放定律 ,Scaling Laws);同時模型達到一定的規模時,它會表現出一些在小模型中不曾出現的新能力(如常識推理、創作能力),這些能力不是被特意設計或訓練出來的,而模型的規模增長中「湧現」出來的,被稱為 湧現能力 (Emergent abilities)。

縮放定律:在 WebText2 上訓練的語言模型,隨著模型參數變大,模型精度損失減少,效能提升。湧現能力:隨著模型參數變大,模型湧現出了新能力[3]

因此,超大模型通常能在不同任務中取得比大模型更好的表現。例如,GPT4.0能明確魯迅和周樹人是一個人,但GPT3.5卻認為他們是兩個不同的人。

大模型(基礎模型)、超大模型是AI領域中最令人激動的進展,它們正在推動技術的邊界,在多個領域中開辟可能性。

人工智能的未來已來,讓我們利用大模型改變世界!

我是等壹,畢業於上海交大,現互聯網研發。

是個愛旅行,愛閱讀,愛寫作的文藝青年,也是個熱愛學習分享技術的geek~

我會定期分享技術、職場、學習等幹貨,歡迎關註!

參考文獻:

  1. On the Opportunities and Risks of Foundation Models
  2. essential-guide-to-foundation-models-and-large-language-models
  3. https://www. assemblyai.com/blog/eme rgent-abilities-of-large-language-models/
  4. Scaling Laws for Neural Language Models
  5. Quantifying and extrapolating the capabilities of language models