當前位置: 華文問答 > 科學

2024 諾貝爾物理學獎授予人工神經網絡機器學習,為什麽會頒給 AI 領域?

2024-10-08科學

一些人開玩笑說今年的諾貝爾物理學獎,好多搞物理的都沒聽說過獲獎的這兩個人……

人工神經網絡與統計物理的關聯不是偶然的

7 月初本科畢業 10 年回科大返校的時候,跟幾位搞數學和物理的同學聊起了 AI,我吃驚的發現 如今 AI 的很多基礎概念是源自統計物理,比如 diffusion(擴散模型)和 emergence(湧現)。 @SIY.Z 也給我講了很多 AI 經典演算法背後的統計物理基礎,比如此次獲獎兩人的重要成果 RBM(受限波茲曼機)

這種關聯並不是偶然的,因為統計物理研究的是大量粒子組成系統的行為,而人工神經網絡也是大量神經元組成的系統。 從人工神經網絡的早期發展歷程,能夠清楚地發現這種關聯:

Hopfield 網絡

1982 年 ,Hopfield 在研究人類記憶的原理,希望創造一個數學模型, 用於解釋和模擬神經網絡如何儲存和重建資訊 ,尤其是在大腦中神經元是如何透過相互連線形成記憶的。

具體來說,這項研究的目的就是要構造一個支持 「語意模糊匹配」 的 CAM(Content-Addressable Memory,內容尋址記憶體), 在儲存階段把需要儲存的多條數據放進去,而在重建階段,放入一個部份遺失或被修改的數據,需要找到與之最匹配的原始數據。

Hopfield 網絡利用了物質特性中的原子自旋,這種特性使每個原子可以被看作一個小磁鐵。這就是為什麽 Hopfield 網絡以及後續演進出來的人工神經網絡這麽像統計物理裏面的 Ising 模型。Ising 模型就是用來解釋為什麽物質具有鐵磁性的。

網絡的整體結構可以用物理學中自旋系統的能量來描述。如果把能量想象成地面的海拔高度,數據想象成東西南北的座標,一個 Hopfield 網絡就是一片很多個山峰組成的山區景觀,從任何地方的天空中扔下去一個小球,都會自動捲動到其中一個山谷的位置。這些山谷所在的位置就是需要儲存的原始數據。

儲存資訊的過程 ,也就是訓練過程中,透過逐層更新的規則,確定節點之間的連線權值,從而使 儲存的影像對應較低的能量狀態。今天機器學習訓練過程最小化 loss,對應的就是物理學中能量最小化的基本原理。 隨著網絡狀態的不斷更新,系統的能量逐漸減少,最終達到一個局部最小值,這對應於網絡的穩定狀態(吸子)。這種動態過程類似於物理系統中趨向於最小勢能的過程。

重建資訊的過程 ,也就是推理過程中,當 Hopfield 網絡接收到一個失真或不完整的影像時,它透過逐步更新節點的狀態來降低系統能量,從而逐步恢復出與輸入影像最相似的影像。

Hopfield 發現,不管是大量粒子組成的物理系統,還是大量神經元組成的神經網絡, 對細節的變化都具有魯棒性 ,壞掉一兩個神經元很難影響系統整體的特性。這使得增量改變神經網絡的權重,逐步學習訓練數據中的模式成為可能。

Hopfield 網絡證實了 大量神經元組成的系統可以產生一定程度的 「計算能力」 (計算能力是 「智能」 一詞比較學術的表達),也是首次用簡單的人工神經元復現了物理學中的 群體湧現(collective emergence) 現象。

Hopfield 網絡盡管是人工神經網絡的先驅,但它的網絡結構不夠合理(所有節點都是全連線),同時 Hebbian 學習機制也不夠合理,更新規則是確定性的而不是隨機化的,導致 Hopfield 網絡的學習能力有限,只能儲存和重建簡單的模式。

這時候就該 Hinton 的波茲曼機出場了。

波茲曼機

1983-1985 年 ,Hinton 等人提出了波茲曼機。

當時 Hinton 等人的研究目標比 Hopfield 更進一步,不僅是研究大量神經元組成的系統是否能湧現出記憶能力,而是希望 模擬物理世界中大量粒子所組成系統的行為。Sora 的 「生成模型是世界模擬器」 思想可能就是源自這裏。 最早我以為 Sora 這個想法來自 Ilya Suskever 的論文,後來畢業 10 周年返校的時候跟搞物理的同學交流,才發現它的根子在上世紀 80 年代的統計物理。

波茲曼機也是一種可以儲存和重建資訊的結構,但它相比 Hopfield 網絡最重要的創新從 」波茲曼「 這幾個字上就已經體現。

Hopfield 網絡假定所有輸入數據之間是互相獨立的,而波茲曼機假定輸入數據服從某種概率分布。因此,波茲曼機是一種概率生成模型(是的,就是今天 GPT 裏面的那個 Generative) ,它不僅僅像 Hopfield 網絡那樣僅僅試圖重現最相似的一條輸入數據,而是希望 模擬復雜模式的統計分布,生成與輸入數據中所包含模式類似的新數據。

具體來說,波茲曼機基於統計學中的最大似然估計。因此,波茲曼機可以在沒有標記訓練數據的情況下中提取數據中的結構,這就是今天的 無監督學習

在網絡結構、更新規則、能量函數上, 波茲曼機也體現了隨機模型相比確定模型的優勢:

網絡結構:

  • Hopfield 網絡 :確定性模型,所有節點對稱,節點之間是全連線的。
  • 波茲曼機 :隨機模型,把神經網絡中的節點劃分為可見層和隱含層,使用概率分布來描述狀態。可見層負責輸入輸出,隱含層不與輸入輸出的資訊直接相連。但所有節點仍然是全連線的。
  • 更新規則

  • Hopfield 網絡 :確定性更新規則,節點狀態同步或異步更新,收斂到能量最小的穩定狀態。
  • 波茲曼機 :波茲曼機透過采樣(如吉布士采樣或其他馬可夫鏈蒙特卡羅方法)來模擬系統的狀態轉移過程。在采樣過程中,系統逐漸向低能量狀態收斂。這種逐步「冷卻」的過程類似於 模擬退火演算法 ,其目標也是透過能量最小化找到全域最優解。
  • 能量函數

  • Hopfield 網絡 :能量函數是確定性的,隨著狀態更新,能量減少,系統收斂到局部最小值。
  • 波茲曼機 :能量函數定義系統的概率分布(即波茲曼分布),低能量狀態具有較高概率,系統透過采樣找到低能量狀態。這與最小作用量原理中的「選擇」最優路徑類似。
  • 反向傳播

    1986 年,Hinton 提出了反向傳播演算法 ,解決了人工神經網絡難以訓練的問題,使得深度學習成為可能。所謂的訓練,就是做數據擬合,用波茲曼機較少的參數盡量擬合大量數據中的特征,也就是把訓練數據中的規律用壓縮的方式儲存在波茲曼機中。根據奧卡姆剃刀原則,訓練資料壓縮之後就提取到了特征,學到了知識。

    受限波茲曼機

    波茲曼機雖然理論上很優雅,但實際用起來效果並不好。 因為當年電腦的算力很有限,波茲曼機的全連線網絡結構也使其收斂很困難。因此,上世紀 90 年代,人工神經網絡進入了寒冬。

    21 世紀初,Hinton 提出了受限波茲曼機(RBM)。RBM 相比波茲曼機的最大創新在於,用雙層的二分圖結構取代了全連線結構,只有可見節點與隱藏節點之間有權重,而同類節點之間沒有權重。

    波茲曼機由於是完全連線的,訓練非常復雜,因為需要處理所有神經元之間的相互依賴關系。尤其是透過馬可夫鏈蒙特卡羅(MCMC)采樣,收斂速度較慢。而 RBM 由於其受限的雙層結構(無層內連線),訓練過程可以簡化。 常用的訓練方法是 對比散度(Contrastive Divergence, CD) ,它大大加快了訓練速度並使得RBM在實際套用中更加可行。此外,隱含層與可見層之間的依賴是 條件獨立 的,這使得計算隱含單元的啟用和權重更新變得更加簡單。

    後面的故事就是大家都知道的了,新的啟用函數、多層神經網絡、層間飛線(ResNet),加上逐步發展的算力,深度神經網絡成就了 AI 的第一波熱潮。至於 Transformer 和 GPT,就是算力增長之後的又一個故事了。

    為什麽把諾貝爾獎頒給 AI

    統計物理就像量子力學一樣,是人類對世界認知的重大飛躍。 量子力學是從決定論到概率論,統計物理是從還原論到系統論。

    在統計物理之前,人類是還原論的思想,希望把世界的執行規律歸結於簡單的物理法則。但統計物理讓我們意識到, 復雜系統的特征本身就是復雜的,不能用幾條簡單的規則概括,因此要想模擬它的行為,就需要用另外一個相對簡單的復雜系統,例如人工神經網絡,來提取它的特征。 用一個相對簡單的復雜系統模擬一個相對復雜的復雜系統,就是特征辨識和機器學習。

    從 Hopfield 網絡到波茲曼機,我們看到概率模型是其中最大的創新。 把世界建模成一個概率模型,不僅對量子力學層面的微觀粒子成立,在大量粒子組成的宏觀系統中也成立。

    事實上,Hopfield 和 Hinton 從一開始的研究目標就決定了 Hopfield 網絡是確定性的,而 Hinton 會使用概率模型。Hopfield 是要記憶和重建已有的資訊,而 Hinton 是要生成與已有數據規律類似的資訊。 為什麽 Hopfield 和 Hinton 是今年獲諾獎,而不是 AI 第一波浪潮的 2016 年獲獎,就是因為生成模型的價值得到了驗證。

    再重復一遍, 復雜系統不能用簡單的規則解釋,需要用另一個相對簡單的復雜系統來建模;復雜系統的行為應使用概率模型,而非決定論來建模。 上述兩個認知並不顯然。今天很多人還在嘗試用幾條簡單的規則解釋神經網絡的行為;很多人認為深度神經網絡是概率模型,因此永遠不可能可靠地解答數學問題。這些都是不了解概率論導致的迷思。

    物理學的重要目的之一是發現世界執行的規律。這次授予諾貝爾物理學獎的發現並不是一條具體的物理規律,而是一種能夠理解和模擬復雜系統的方法論:人工神經網絡。 人工神經網絡並不像汽車、電腦那樣僅僅是一個套用,它同時也是人類發現世界規律的新方法。因此,雖然我對這次的諾貝爾物理學獎也很吃驚,但回過味來一想,又覺得很有道理。

    我的個人暴論

    「生成模型是世界模擬器」 這句話隨著 Sora 的問世而爆火,其實這句話是 OpenAI 早在 2016 年就提出的,而提出這句話的 OpenAI 首席科學家 Ilya Suskever 又是從他的老師 Hinton 那裏學到的這個思想。

    仔細想想這句話,其實挺可怕的。物理世界需要一摩爾級別的粒子才能湧現出智能。而人工神經網絡使用少幾個數量級的神經元,就能模擬一摩爾級別粒子的規律,湧現出智能。這意味著人工神經網絡是一種更高效的知識表達形式。在能源有限的情況下,人工神經網絡也許是智能更高效的載體。

    我們現在還不知道人工神經網絡的能力邊界在哪裏。它真的足夠通用到建模物理世界中的所有現象嗎? 事實是,從 Hopfield 網絡、波茲曼機、RBM、深度神經網絡到 Transformer,模型能力正在不斷突破限制。 如今,一些被認為 Transformer 不可解決的問題都快被突破了。

    例如,數學計算往往被認為是 Transformer 不可解決的問題,但 如今 CoT(思維鏈)和基於強化學習的 OpenAI o1 基本解決了大模型做簡單數值計算和符號計算的問題。

    OpenAI o1 甚至可以利用世界知識和邏輯推理能力,從數據中發現一些高層次的規律。 例如給出 Pi 的前 100 位,說這個數碼是有規律的,讓它預測第 101 位,它能夠發現這是 Pi,並且按照 Pi 的計算方法,把第 101 位準確地計算出來。之前很多人認為這種知識發現能力和多步驟的復雜數值計算是 Transformer 永遠都搞不定的,知乎上還有一個問題【如果把π的前10000億位餵給大模型,讓它預測後面的數碼,它會得出相對準確的結果嗎?】,下面的回答基本都是諷刺。但事實證明,利用 test-time scaling(增加推理時間做慢思考),這其實是可能的。

    現在 OpenAI o1 mini 本科理科大多數專業課的題都會做,比如四大力學、數學分析、線性代數、隨機過程、微分方程式 ,o1 mini 對復雜的計算題大概能做對 70%-80%,簡單概念題和計算題正確率 90% 以上,電腦系本科那些電腦編碼題就更不是問題了,我覺得 o1 mini 在數學系、物理系和電腦系都能本科畢業了 。o1 正式版出來之後估計會更強。我一邊測就一邊調侃說,我自己智商有限,當年高等數學就沒有學明白,就只能用一些比我更聰明的工具來彌補我自己智力的不足了。

    人類在發現規律方面的能力被 AI 趕上並超越,也許就是 10 年內的事情。也許幾十年後,獲得諾貝爾物理學獎的將是 AI。 那時,我們人類應該做什麽呢?我的思考是,人類應該決定 AI 的方向。這就是被趕走的 Ilya Suskever 和 Jan Leike 在 OpenAI 做的超級對齊(Superalignment):如何保證比人還聰明的 AI 能夠遵循人類的意圖。

    諾貝爾獎官網其實解釋了為什麽物理學獎頒給了 Hopfield 和 Hinton 兩個做 AI 的。有兩個版本,一個科普一些的,一個深入一些的。兩篇文章都寫得不錯,推薦一讀。

    科普一些的諾獎官網介紹

    https://www. nobelprize.org/prizes/p hysics/2024/popular-information/

    今年的獲獎者使用物理學工具構建了幫助奠定當今強大機器學習基礎的方法。約翰·霍普菲爾德(John Hopfield)建立了一種可以儲存和重建資訊的結構。謝菲·辛頓(Geoffrey Hinton)發明了一種可以自主發現數據內容的方法,這在當今使用的大型人工神經網絡中變得非常重要。

    他們使用物理學在資訊中尋找模式

    許多人都體驗過電腦如何在不同語言之間進行轉譯、解釋影像,甚至進行合理的對話。或許不太為人所知的是,這種技術長期以來對包括海量數據的分類和分析等研究具有重要作用。過去十五到二十年間,機器學習的發展突飛猛進,並利用了一種稱為人工神經網絡的結構。如今,當我們談論人工智能時,通常指的就是這種技術。

    盡管電腦無法思考,但機器現在可以模仿記憶和學習等功能。今年的物理學獎得主幫助使這一切成為可能。他們利用物理學的基本概念和方法,開發了使用網絡結構來處理資訊的技術。

    機器學習不同於傳統的軟件,傳統軟件更像是一種配方。軟件接收數據,根據清晰的描述進行處理,並生成結果,就像有人收集食材並按照配方加工,最終做出蛋糕。而在機器學習中,電腦透過範例進行學習,使其能夠解決那些過於模糊和復雜而無法透過逐步指令處理的問題。一個例子是解釋影像以辨識其中的物體。

    模仿大腦

    人工神經網絡透過整個網絡結構來處理資訊。最初的靈感來自於理解大腦如何工作。早在20世紀40年代,研究人員就開始推匯出支撐大腦神經元和突觸網絡的數學原理。另一個關鍵的拼圖來自心理學,得益於神經科學家當勞·赫布(Donald Hebb)的假設,即學習發生是因為神經元之間的連線在一起工作時得到增強。

    後來,這些想法被用於嘗試透過構建人工神經網絡的電腦模擬來重現大腦的網絡功能。在這些模擬中,大腦的神經元被節點所模仿,這些節點被賦予不同的值,而突觸則由可以變強或變弱的節點之間的連線來表示。赫布的假設仍然是透過稱為訓練的過程來更新人工網絡的基本規則之一。

    自然和人工神經元的插圖

    到20世紀60年代末,一些令人沮喪的理論結果使許多研究人員懷疑這些神經網絡是否會有任何實際用途。然而,在20世紀80年代,幾位重要的理念產生了影響,包括今年的獲獎者的工作,重新喚起了人們對人工神經網絡的興趣。

    關聯記憶

    想象一下你正試圖記住一個你很少用到的相對不常見的詞,比如通常在電影院或講堂中見到的斜坡地板的詞匯。你在記憶中搜尋。它有點像「坡道」(ramp)……也許是「徑向」(rad…ial)?不,不是這個。是「rake」,就是它!

    這種透過類似詞匯尋找正確詞匯的過程類似於物理學家約翰·霍普菲爾德在1982年發現的關聯記憶。霍普菲爾德網絡可以儲存模式,並具有重現這些模式的方法。當網絡收到一個不完整或稍微扭曲的模式時,這種方法可以找到最相似的儲存模式。

    霍普菲爾德之前曾利用他的物理學背景來探索分子生物學中的理論問題。當他被邀請參加有關神經科學的會議時,他遇到了關於大腦結構的研究。他被所學內容所吸引,並開始思考簡單神經網絡的動態。當神經元一起作用時,它們可以產生新的強大特性,這些特性對於只關註網絡的單個組成部份的人來說是顯而易見的。

    1980年,霍普菲爾德離開了普林斯頓大學的職位,他的研究興趣使他遠離了物理學領域的同事們,並移居大陸。他接受了加州理工學院(Caltech)化學和生物學教授的職位,在位於南加州帕薩迪納的加州理工學院,他可以自由使用電腦資源進行實驗,發展他關於神經網絡的想法。

    然而,他並沒有拋棄他在物理學中的基礎,在那裏他找到了解如何理解由許多小元件共同作用的系統產生新現象的靈感。他特別受益於對具有特殊特性的磁性材料的學習,這些材料的原子自旋使每個原子成為一個微小的磁鐵。相鄰原子的自旋相互影響,這可以形成自旋相同方向的區域。他能夠利用描述材料如何在自旋相互作用時發展的物理學來構建一個具有節點和連線的模型網絡。

    網絡在景觀(landscape)中保存影像

    霍普菲爾德構建的網絡具有透過不同強度的連線相互連線的節點。每個節點可以儲存一個單獨的值——在霍普菲爾德的第一個工作中,這個值可以是0或1,就像黑白圖片中的像素。

    霍普菲爾德用一個內容來描述網絡的總體狀態,這相當於物理學中自旋系統中的能量;能量透過一個公式計算,該公式使用了所有節點的值以及它們之間所有連線的強度。霍普菲爾德網絡透過將影像輸入節點來編程,節點被賦予黑色(0)或白色(1)的值。然後使用能量公式調整網絡的連線,使保存的影像具有較低的能量。當另一個模式被輸入到網絡時,有一條規則用於逐個檢查節點,並檢視如果該節點的值發生變化,網絡是否具有較低的能量。如果發現將黑色像素改為白色可以降低能量,則改變其顏色。這一過程繼續進行,直到無法找到進一步的改進。當到達這一點時,網絡通常會重現訓練時的原始影像。

    如果你只保存一個模式,這可能看起來不太顯著。或許你會想,為什麽不直接保存影像本身並將其與正在測試的另一幅影像進行比較,但霍普菲爾德的方法特別之處在於,多個影像可以同時保存,網絡通常可以區分它們。

    霍普菲爾德將搜尋網絡保存狀態的過程比作將一個球滾過由山峰和山谷組成的景觀(landscape),其摩擦力減緩了其運動。如果球在某個位置掉落,它將滾入最近的山谷並停在那裏。如果給網絡提供一個接近保存模式的模式,它將以同樣的方式繼續前進,直到它到達能量景觀的谷底,從而在其記憶中找到最接近的模式。

    霍普菲爾德網絡可用於重建包含雜訊或部份被擦除的數據。

    網絡在景觀中保存影像

    霍普菲爾德及其他人繼續發展霍普菲爾德網絡的細節,包括可以儲存任意值的節點,而不僅僅是零或一。如果將節點視為影像中的像素,它們可以有不同的顏色,而不僅僅是黑白。改進的方法使得能夠保存更多影像,即使它們非常相似,也可以將它們區分開來。同樣可以辨識或重建任何資訊,只要它是由許多數據點組成的。

    利用十九世紀物理學進行分類

    記住一幅影像是一回事,但解釋它描繪的內容則需要更多。

    即使是非常年幼的孩子也可以指出不同的動物,並自信地說出它是狗、貓還是松鼠。雖然他們偶爾會出錯,但很快他們幾乎總是正確的。即使沒有看到任何關於物種或哺乳動物的圖表或概念解釋,孩子們也可以學會這一點。在遇到每種動物的幾個例子後,不同類別就在孩子的頭腦中形成了。人們透過體驗周圍的環境學會辨識貓,理解一個詞,或進入一個房間並註意到有什麽改變了。

    當霍普菲爾德發表他的關聯記憶文章時,謝菲·辛頓正在美國匹茲堡的卡內基梅隆大學工作。他之前在英格蘭和蘇格蘭學習過實驗心理學和人工智能,正思考機器是否可以像人類一樣學習處理模式,找到自己的分類方法來整理和解釋資訊。與他的同事特倫斯·塞諾夫斯基(Terrence Sejnowski)一起,辛頓從霍普菲爾德網絡出發,利用統計物理學的思想進行了新的構建。

    統計物理學描述了由許多相似元素組成的系統,例如氣體中的分子。

    雖然很難追蹤氣體中的所有分子,但可以透過整體來確定氣體的總體性質,例如壓力或溫度。氣體分子在其體積內以個別速度擴散的方式有很多種,但仍可以得出相同的集體內容。

    統計物理學可以分析組成部份共同存在的狀態,並計算它們發生的概率。有些狀態比其他狀態更可能發生;這取決於系統的能量,能量由十九世紀物理學家路德維希·波茲曼(Ludwig Boltzmann)的方程式式描述。辛頓的網絡利用了該方程式,該方法於1985年以「波茲曼機」這個引人註目的名稱發表。

    辨識同類的新例項

    波茲曼機通常使用兩種不同類別的節點。資訊被輸入到稱為可見節點的一組中。另一組節點形成隱藏層。隱藏節點的值和連線也影響整個網絡的能量。

    波茲曼機透過逐個更新節點值的規則來執行。最終,機器會進入一個狀態,節點的模式可以發生變化,但網絡整體的內容保持不變。每種可能的模式都有一個特定的概率,這取決於根據波茲曼方程式計算出的網絡能量。當機器停止時,它會生成一個新模式,這使得波茲曼機成為一種早期的生成模型。

    不同類別的神經網絡

    波茲曼機透過範例進行學習——不是透過指令,而是透過提供給它的範例。它的訓練過程是透過更新網絡連線中的值,使得訓練時輸入給可見節點的範例模式的出現概率最大化。如果在訓練過程中多次重復同一模式,則該模式的概率將更高。訓練還會影響生成類似於訓練範例的新模式的概率。

    訓練好的波茲曼機可以在它從未見過的資訊中辨識出熟悉的特征。想象一下,你遇到了朋友的兄弟姐妹,你立刻能看出他們一定是親戚。以類似的方式,波茲曼機可以辨識屬於訓練材料中類別的全新例項,並將其與不同類別的材料區分開來。

    在其原始形式中,波茲曼機效率較低,尋找解決方案需要很長時間。當它以不同方式得到發展時,事情變得更加有趣,辛頓一直在繼續探索這一點。後來的版本進行了簡化,刪除了一些單元之間的連線。事實證明,這可能使機器更為高效。

    在20世紀90年代,許多研究人員對人工神經網絡失去了興趣,但辛頓是少數繼續在這一領域工作的學者之一。他還幫助開啟了新一輪的激動人心的成果爆發;2006年,他和同事西蒙·奧辛德羅(Simon Osindero)、葉懷德(Yee Whye Teh)以及魯斯蘭·莎拉庫丁諾夫(Ruslan Salakhutdinov)開發了一種預訓練網絡的方法,即在多個波茲曼機層級中逐層預訓練。這種預訓練為網絡中的連線提供了更好的起點,最佳化了其訓練,以辨識影像中的元素。

    波茲曼機通常用作更大網絡的一部份。例如,它可以根據觀眾的偏好推薦電影或電視劇。

    機器學習——今天與明天

    我們要感謝從 20 世紀 80 年代開始的工作,約翰·霍普菲爾德和謝菲·辛頓幫助奠定了機器學習革命的基礎,這場革命自 2010 年左右開始。

    我們現在目睹的這一發展得益於大量可用於訓練網絡的數據的獲得,以及計算能力的極大提升。今天的人工神經網絡通常規模龐大,由多個層構成。這些被稱為深度神經網絡,它們的訓練方式稱為深度學習。

    快速瀏覽一下霍普菲爾德在 1982 年關於關聯記憶的文章,可以讓我們對這種發展有一個了解。文中,他使用了一個具有 30 個節點的網絡。如果所有節點彼此連線,則會有 435 個連線。節點有它們自己的值,連線具有不同的強度,總共有不到 500 個參數需要跟蹤。他還嘗試了一個具有 100 個節點的網絡,但由於當時使用的電腦過於復雜而無法處理。我們可以將其與今天的大型語言模型進行比較,後者由上億個參數構建的網絡組成。

    現在,許多研究人員正在開發機器學習的套用領域。哪些套用會變得最有前景還有待觀察,同時圍繞這項技術的開發和使用也展開了廣泛的倫理討論。

    由於物理學為機器學習的發展提供了工具,因此值得註意的是,作為研究領域的物理學也從人工神經網絡中受益良多。機器學習長期以來一直被用於我們從以前的諾貝爾物理學獎中熟悉的領域。這些領域包括透過處理海量數據來發現希格斯粒子的使用;另一個套用包括減少測量來自碰撞黑洞的重力波中的雜訊,或者尋找系外行星。

    近年來,這項技術也開始被用於計算和預測分子和材料的性質——例如計算決定其功能的蛋白質分子的結構,或研究哪些新材料的版本可能具有最適合用於更高效太陽能電池的特性。

    深入一些的諾獎官網介紹

    https://www. nobelprize.org/uploads/ 2024/09/advanced-physicsprize2024.pdf

    「為人工神經網絡啟發的機器學習奠定基礎性發現與發明」

    2024 年諾貝爾物理學獎由瑞典皇家科學院授予 約翰·霍普菲爾德 謝菲·辛頓 ,以表彰他們在人工神經網絡(ANN)及其推動機器學習領域的基礎性貢獻。

    引言

    自 1940 年代起,以人工神經網絡(ANNs)為基礎的機器學習在過去三十年中發展成為一種多功能且強大的工具,既可以套用於日常生活,也可以套用於前沿科學領域。透過人工神經網絡,物理學的邊界被擴充套件到了生命現象和計算領域。

    人工神經網絡受到大腦中生物神經元的啟發,包含大量「神經元」或節點,透過「突觸」或加權連線來相互作用。它們被訓練執行特定任務,而不是執行預定的指令集。其基本結構與統計物理學中套用於磁性或合金理論的自旋模型有著密切的相似性。今年的諾貝爾物理學獎表彰了利用這一聯系在人工神經網絡領域取得突破性方法進展的研究。

    歷史背景

    20 世紀 40 年代,首批基於電子的電腦出現,最初是為軍事和科學目的發明的,旨在完成對人類而言繁瑣且耗時的計算。到 20 世紀 50 年代,出現了相反的需求,即讓電腦執行人類及其他哺乳動物擅長的模式辨識任務。

    這種以人工智能為目標的嘗試最初由數學家和電腦科學家發起,他們開發了基於邏輯規則的程式。直到 20 世紀 80 年代,這種方法仍在繼續,但對於影像等的精確分類所需的計算資源變得過於昂貴。

    與此同時,研究人員開始探索生物系統如何解決模式辨識問題。早在 1943 年,神經科學家 Warren McCulloch 和邏輯學家 Walter Pitts 提出了一個大腦中神經元如何協作的模型。在他們的模型中,神經元形成了來自其他神經元的二進制輸入訊號的加權和,這決定了一個二進制輸出訊號。他們的工作成為後來研究生物和人工神經網絡的出發點。

    1949 年,心理學家 Donald Hebb 提出了學習和記憶的機制,即兩個神經元的同時且重復的啟用會導致它們之間突觸的增強。

    在人工神經網絡領域,探索了兩種節點互聯系統的架構:「遞迴網絡」和「前饋網絡」。前者允許反饋互動,後者則包含輸入層和輸出層,可能還包括夾在中間的隱藏層。

    1957 年,Frank Rosenblatt 提出了用於影像解釋的前饋網絡,並在電腦硬件中實作了這一網絡。該網絡包含三層節點,只有中間層與輸出層之間的權重是可調的,並且這些權重以系統化的方式確定。

    Rosenblatt 的系統引起了相當大的關註,但在處理非線性問題時存在局限性。一個簡單的例子是「僅一種或另一種,但不能同時存在」的異或 (XOR) 問題。Marvin Minsky 和 Seymour Papert 在 1969 年出版的書中指出了這些局限性,這導致人工神經網絡研究在資金方面陷入了停滯。

    在這一時期,受磁性系統啟發的並列發展,旨在為遞迴神經網絡建立模型並研究其集體內容。

    1980 年代的進展

    20 世紀 80 年代,在遞迴神經網絡和前饋神經網絡領域都取得了重大突破,導致了人工神經網絡領域的迅速擴充套件。

    John Hopfield 是生物物理學領域的一位傑出人物。他在 20 世紀 70 年代的開創性工作,研究了生物分子之間的電子轉移及生化反應中的錯誤糾正(稱為動力學校對)。

    1982 年,Hopfield 發表了一個基於簡單遞迴神經網絡的聯想記憶模型。集體現象在物理系統中頻繁出現,例如磁性系統中的疇結構和流體中的渦流。Hopfield 提出,是否在大量神經元的集體現象中會出現「計算」能力。

    他註意到,許多物理系統的集體內容對模型細節的變化具有魯棒性,他透過使用具有 N 個二進制節點 s_i (0 或 1) 的神經網絡來探討這個問題。網絡的動態是異步的,個別節點以隨機時間進行閾值更新。節點 s_i 的新值透過所有其他節點的加權和決定:

    \[ h_i = \sum_{j \neq i} w_{ij} s_j \]

    如果 \( h_i > 0 \) ,則設定 \( s_i = 1 \) ,否則 \( s_i = 0 \) (閾值設為零)。連線權重 \( w_{ij} \) 被認為是對儲存記憶中節點對之間相關性的反映,稱為 Hebb 規則。權重的對稱性保證了動態的穩定性。靜態狀態被辨識為儲存在 N 個節點上的非局部記憶。此外,網絡被賦予了一個能量函數 E:

    \[ E = - \sum_{i < j} w_{ij} s_i s_j \]

    在網絡的動態過程中,能量單調遞減。值得註意的是,早在 20 世紀 80 年代,物理學和人工神經網絡之間的聯系就透過這兩個方程式式顯現出來。第一個方程式可以用來表示 Weiss 分子場(由法國物理學家 Pierre Weiss 提出),描述了固體中原子磁矩的排列,第二個方程式通常用於評估磁性配置的能量,例如鐵磁體。Hopfield 很清楚這些方程式在描述磁性材料中的套用。

    比喻來說,這個系統的動態將 N 個節點驅動到一個 N 維能量景觀的谷底,這些谷底對應於系統的靜態狀態。靜態狀態表示透過 Hebb 規則學習的記憶。最初,Hopfield 的動態模型中可以儲存的記憶數量有限。在後來的工作中開發了緩解這一問題的方法。

    Hopfield 使用他的模型作為聯想記憶,也用作錯誤糾正或模式補全的工具。一個帶有錯誤模式(例如拼寫錯誤的單詞)的系統會被吸引到最近的局部能量最低點,從而進行糾正。當發現可以透過使用自旋玻璃理論的方法來分析模型的基本內容(如儲存容量)時,模型獲得了更多的關註。

    當時一個合理的問題是,這個模型的內容是否是其粗略二進制結構的產物。Hopfield 透過建立模型的模擬版本回答了這一問題,該版本具有由電子電路運動方程式給出的連續時間動態。他對模擬模型的分析表明,二進制節點可以替換為模擬節點,而不會遺失原模型的集體內容。模擬模型的靜態狀態對應於在有效可調溫度下的二進制系統的平均場解,並且在低溫下接近二進制模型的靜態狀態。

    Hopfield 和 David Tank 利用模擬模型的連續時間動態,開發出了一種求解復雜離散最佳化問題的方法。他們選擇使用模擬模型的動態,以獲得更「柔和」的能量景觀,從而促進搜尋。透過漸進減少模擬系統的有效溫度,仿照全域最佳化中的模擬退火過程,進行最佳化。這種方法透過電子電路的運動方程式積分求解最佳化問題,這期間節點不需要中央單元的指令。該方法是利用動力系統求解復雜離散最佳化問題的開創性例子之一,更近期的例子是量子退火。

    透過建立和探索這些基於物理學的動力學模型,Hopfield 對我們理解神經網絡的計算能力做出了基礎性貢獻。

    波茲曼機

    1983-1985 年,Geoffrey Hinton 與 Terrence Sejnowski 及其他同事一起開發了 Hopfield 1982 年模型的隨機擴充套件,稱為波茲曼機。波茲曼機中的每個狀態 s = (s_1, ..., s_N) 被賦予一個遵循波茲曼分布的概率:

    \[ P(s) \propto e^{-E/T}, E = - \sum_{i < j} w_{ij} s_i s_j - \sum_{i} \theta_i s_i \]

    其中 T 是一個假想溫度, \( \theta_i \) 是偏置,或局部場。

    波茲曼機是一種生成模型,與 Hopfield 模型不同,它專註於模式的統計分布,而非單一模式。它包含對應於要學習模式的可見節點,以及為了能夠建模更一般的概率分布而引入的隱藏節點。

    波茲曼機的權重和偏置參數定義了能量 E,這些參數是透過訓練確定的,使得模型生成的可見模式的統計分布與給定的訓練模式的統計分布之間的偏差最小。Hinton 和他的同事們開發了一個形式優雅的基於梯度的學習演算法來確定這些參數。然而,每一步演算法都涉及為兩個不同的集合進行耗時的平衡模擬。

    盡管理論上很有趣,但在實踐中,波茲曼機的套用初期相對有限。然而,它的一個精簡版本,稱為限制波茲曼機(RBM),發展成為一個多功能的工具(見下一節)。

    Hopfield 模型和波茲曼機都是遞迴神經網絡。80 年代還見證了前饋網絡(feedforward network)的重要進展。1986 年,David Rumelhart、Hinton 和 Ronald Williams 展示了如何使用一種稱為反向傳播的演算法訓練包含一個或多個隱藏層的架構來進行分類。這裏的目標是透過梯度下降最小化網絡輸出與訓練數據之間的均方偏差 D。這要求計算 D 相對於網絡中所有權重的偏導數。Rumelhart、Hinton 和 Williams 重新發明了一個方案,該方案曾由其他研究人員套用於相關問題。此外,更重要的是,他們證明了具有隱藏層的網絡可以透過這種方法進行訓練,執行那些已知無法透過無隱藏層網絡解決的任務。他們還闡明了隱藏節點的功能。

    向深度學習邁進

    80 年代的方法論突破很快帶來了成功的套用,包括影像、語言和臨床數據的模式辨識。一個重要的方法是多層摺積神經網絡(CNN),由 Yann LeCun 和 Yoshua Bengio 使用反向傳播進行訓練。CNN 架構起源於 Kunihiko Fukushima 建立的新認知網絡方法,而這一方法受到 1981 年獲得諾貝爾生理學或醫學獎的 David Hubel 和 Torsten Wiesel 工作的啟發。LeCun 和他的同事開發的 CNN 方法從 90 年代中期開始被美國銀行用來分類支票上的手寫數碼。另一個成功的例子是 Sepp Hochreiter 和 Jürgen Schmidhuber 在 90 年代發明的長短期記憶法(LSTM),這是一種用於處理序列數據的遞迴網絡,例如語音和語言,它可以透過時間展開對映為多層網絡。

    盡管 90 年代的一些多層架構取得了成功的套用,但訓練具有許多層次之間密集連線的深層網絡仍然是一項挑戰。對許多該領域的研究人員來說,訓練密集的多層網絡似乎遙不可及。這一局面在 2000 年代發生了變化。Hinton 是這一突破的領導者,RBM 是其中的重要工具。

    RBM 網絡只有可見節點與隱藏節點之間的權重,而同類節點之間沒有權重。對於 RBM,Hinton 創造了一種高效的近似學習演算法,稱為對比散度,該演算法比全波茲曼機的演算法快得多。隨後,他與 Simon Osindero 和 Yee-Whye Teh 一起開發了一種逐層預訓練多層網絡的方法,每層網絡使用 RBM 進行訓練。該方法的一個早期套用是自動編碼器網絡,用於降維。經過預訓練後,可以使用反向傳播演算法進行全域參數微調。透過 RBM 預訓練可以在沒有標記訓練數據的情況下提取數據中的結構,如影像中的角。這些結構被辨識後,透過反向傳播進行標記變得相對簡單。

    透過這種方式連線預訓練的層,Hinton 成功實作了深層和密集網絡的範例,這是邁向如今深度學習的一個裏程碑。後來,其他方法可以替代 RBM 預訓練,達到相同的深層和密集人工神經網絡的效能。

    人工神經網絡作為物理學和其他科學領域的強大工具

    前文主要討論了物理學是如何推動人工神經網絡的發明和發展的。反過來,人工神經網絡正日益成為物理學中建模和分析的強大工具。

    在一些套用中,人工神經網絡被用作函數逼近器,即人工神經網絡被用來為所研究的物理模型提供一個「復制品」。這可以顯著減少所需的計算資源,從而允許以更高的分辨率研究更大的系統。透過這種方式取得了顯著進展,例如量子力學多體問題。深度學習架構被訓練來重現材料的相的能量以及原子間力的形狀和強度,達到與從頭量子力學模型相當的精度。透過這些經過人工神經網絡訓練的原子模型,可以更快地確定新材料的相穩定性和動態特性。成功套用這些方法的例子包括預測新的光伏材料。

    透過這些模型,還可以研究相變以及水的熱力學性質。同樣,人工神經網絡表示的發展使得在顯式物理氣候模型中達到更高的分辨率成為可能,而不需要額外的計算能力。

    人工神經網絡在粒子物理學和天文學中的套用

    在 90 年代,人工神經網絡(ANNs)成為了復雜度日益增加的粒子物理實驗中的標準數據分析工具。例如,像希格斯玻色子這樣極為稀有的基本粒子只在高能碰撞中短暫存在(例如希格斯玻色子的壽命約為 10^{-22} 秒)。這些粒子的存在需要透過探測器中的軌跡資訊和能量沈積來推斷出來。通常,預期的探測器訊號非常罕見,並且可能被更常見的背景過程所模仿。為了辨識粒子的衰變並提高分析效率,人工神經網絡被訓練來從大量快速生成的探測器數據中挑選出特定的模式。

    人工神經網絡提高了 90 年代在歐洲核子研究中心(CERN)的大型電子-正電子對撞機(LEP)上尋找希格斯玻色子的靈敏度,並在 2012 年 CERN 的大型強子對撞機(LHC)上發現希格斯玻色子的分析中發揮了作用。人工神經網絡也用於費米實驗室的頂誇克研究中。

    在天體物理學和天文學中,人工神經網絡也成為了標準的數據分析工具。一個最近的例子是利用南極 IceCube 微中子探測器的數據進行神經網絡驅動分析,從而生成了銀河系的微中子影像。開普勒任務利用人工神經網絡辨識了系外行星的淩日現象。銀河系中心黑洞的事件視界望遠鏡影像也使用了人工神經網絡進行數據處理。

    到目前為止,使用深度學習人工神經網絡方法取得的最為顯著的科學突破是 AlphaFold 工具的開發,它可以根據胺基酸序列預測蛋白質的三維結構。在工業物理和化學建模中,人工神經網絡也日益發揮重要作用。

    人工神經網絡在日常生活中的套用

    基於人工神經網絡的日常套用清單非常長。這些網絡支持了幾乎所有我們在電腦上所做的事情,例如影像辨識、語言生成等等。

    在醫療保健中的決策支持也是人工神經網絡的一個成熟套用。例如,最近的一項前瞻性隨機研究表明,使用機器學習分析乳腺X線照片顯著改善了乳癌的檢測率。另一個最新的例子是用於磁共振成像(MRI)掃描的運動校正技術。

    結語

    Hopfield 和 Hinton 所開發的開創性方法和概念在塑造人工神經網絡領域方面發揮了關鍵作用。此外,Hinton 還在推動深度和密集人工神經網絡方法的發展中起到了主導作用。

    他們的突破,建立在物理科學的基礎上,為我們展示了一種全新的方式,利用電腦來幫助我們解決社會面臨的諸多挑戰。簡單來說,得益於他們的工作,人類現在擁有了一種全新的工具,能夠用於良好的目的。基於人工神經網絡的機器學習正在徹底改變科學、工程和日常生活。該領域已經在為構建可持續社會的突破鋪平道路,例如幫助辨識新的功能材料。深度學習和人工神經網絡的未來使用,取決於我們人類如何選擇使用這些已經在我們生活中扮演重要角色的強大工具。