什麽是大模型？超大模型和 Foundation Model 呢？

2022-10-08數碼

大模型=基礎模型 （Foundation Model），模型參數為數億到數十億。

超大模型：模型參數更大 的大模型，通常有數萬億個參數，因此學習能力更強。

下面從定義、技術背景和套用場景來詳細聊聊~

基礎模型（Foundation Model，即大模型）

定義

2021年8月，史丹福大學人類中心人工智能研究所（HAI）發表了一篇研究：On the Opportunities and Risk of Foundation Models，首次提出了Foundation Model的概念：即在多種任務和領域中具有 廣泛適用性 的 大型預訓練模型 。

這些模型之所以被稱為「基礎」，因為它們可以作為許多下遊任務的起點，透過微調或進一步訓練來適應特定的套用。如圖所示，我們可以理解成大模型（基礎模型）是一個地基，給它不同的材料（訓練數據），就可以搭建不同的房子（套用於不同的場景）。

技術基礎

大模型的技術基礎主要是深度學習，包括預訓練與微調、transformer架構：

1.預訓練與微調（Pre-training and Fine-tuning）：

預訓練： 基礎模型首先透過無監督或自監督學習方法，在大規模的數據集上進行預訓練。透過與訓練，模型能夠學習到豐富的特征表示和數據中的潛在結構。

微調： 預訓練完成後，模型會針對特定的下遊任務進行微調，以提高效能；通常在有標註的數據上進行模型訓練（監督學習）和模型效能最佳化。

2.Transformer架構 ：

基礎模型通常是在Transformer架構的基礎上構建的。

Transformer最早是Google在2017年的Attention Is All You Need論文中提出，解決了傳統的序列到序列（sequence-to-sequence，Seq2Seq）模型在處理可變長序列時遇到的問題。

傳統的序列模型（如RNN、LSTM）難以捕捉序列的長距離依賴關系，即序列中相隔較遠的元素之間的關聯。Transformer透過自註意力機制，使得模型能夠直接關註序列中任意兩個位置，從而有效地捕捉這種長距離依賴。

上圖是Transformer的組成。左半部份是編碼器（Encoder），主要作用是將輸入數據編碼成電腦能理解的高維抽象表示。它的核心是由多個 自註意力層 和 前饋神經網絡 組成的。

右半部份是解碼器（Decoder），主要作用是利用高維表示資訊生成目標序列。它的結構與編碼器大致相同（註意力層+前饋神經網絡），不同的點是采用了掩碼註意力層（Masked Attention），且中間部份，利用了Encoder的輸出結果計算交叉註意力（Cross Attention）。

（如果想詳細了解transformer的原理，可以參考我的這篇知乎回答：

)

簡而言之，transformer的核心是 註意力機制 ，它解決了傳統序列模型處理可變長序列的遺忘問題。且它能進行平行計算，能有效提升計算效率，所以被廣泛套用於基礎模型中。

套用場景

透過預訓練和微調，大模型的套用場景非常豐富，在自然語言處理、音訊處理、多模態任務處理等均表現出色。

自然語言理解和生成： 在機器轉譯、文本摘要、問答系統、聊天機器人等領域，大模型可以生成流暢自然的語言，理解復雜的查詢。例如，谷歌推出的BERT-Large模型有3.4億個參數，它是NLP領域的重要突破。

音訊處理： 大模型在語音辨識、語音合成、語音轉譯等任務中也表現出色。例如DeepMind的WaveNet是一個大型的生成模型，用於生成自然的人聲。

多模態任務： 大模型也可以套用在需同時處理文本和影像的任務中，如影像標註和影片理解。OpenAI的CLIP模型是一個大型的多模態模型，它可以理解影像和對應的文本描述。

如今，大模型具有廣闊和豐富的套用場景，初創公司和行業巨頭也紛紛投入到這場大模型競賽中，試圖透過開發獨具特色的大模型來搶占市場份額。對於個人而言，大模型也能成為生產利器，幫助我們成為AI時代的超級個體。

如果你想跟緊時代前沿，把握技術風口，可以參加這門知乎知學堂聯合AGI課堂推出的 AI大模型免費公開課 ，特邀圈內技術大佬幫我們全面解讀大模型技術。

在兩天的免費課程中，我們可以了解大模型發展歷程與訓練方法、Prompt Engineering、利用LangChain+Fine-tune客製大模型套用等知識，最終利用大模型為我們賦能。添加助教老師微信還可以 領取大模型資料包、免費無翻墻的大模型工具網址 等資源，不要錯過啦~

超大模型（Very Large Model）

超大模型和大模型的主要區別在於 模型參數的差異 ：大模型（基礎模型）的參數通常在數億到數十億參數之間，而超大模型是大模型的擴充套件，它們通常擁有高達數萬億個參數。這些模型的規模和復雜性帶來了更高級的學習能力。

在自然語言處理領域： OpenAI的GPT3.5是一個典型的超大模型，擁有1750億個參數，它在包括寫作、轉譯、推理等多種語言任務上展示出了驚人的效能；最新推出的GPT4在更為龐大的訓練數據基礎上訓練，其在生成響應時能夠考慮超過 1 萬億個參數。

在音訊辨識領域： Jukebox是一個能夠生成音樂的超大模型，包括旋律、節奏、和聲等元素，它可以創作不同風格和藝術家的音樂作品。

在多模態任務上： DALL-E模型是一個超大型的生成模型，它可以根據文本描述生成相應的影像，展示了強大的創造力；GPT-3 with vision模型是一個跨模態的超大模型，它能處理影像輸入並生成描述。

研究表明，隨著模型的規模（如參數數量、數據量、計算量）增大，其效能通常會隨之提高，（即 縮放定律 ，Scaling Laws）；同時模型達到一定的規模時，它會表現出一些在小模型中不曾出現的新能力（如常識推理、創作能力），這些能力不是被特意設計或訓練出來的，而模型的規模增長中「湧現」出來的，被稱為 湧現能力 （Emergent abilities）。