1.視覺通路(Visual Pathway)與視網膜拓撲對映(Retinotopy)

上圖是橫斷面的人腦視覺通路[1]示意圖。人眼的所有眼各有鼻側和顳側視野,在視網膜(Retina)感知光訊號之後,左右兩側的視神經將訊號向後傳遞,在視交叉(Optic Chiasma)將各自的鼻側和顳側訊號分流並繼續向後傳遞,分流之後左側神經只傳遞右側視覺訊號(左眼鼻側視野和右眼顳側視野),右側神經質傳遞左側視覺訊號(左眼顳側視野和右眼鼻側視野),分別透過兩側的外側膝狀體(LGN, Lateral Geniculate Nucleus),繼續傳遞到枕葉的初級視皮層(V1, Primary Visual Cortex)和更高級的視皮層. 易於理解的,視網膜感知的物體,透過該通路,會以一定空間關系對映視皮層上[2], 該關系被稱為視網膜拓撲對映(Retinotopy)[3].

基於該拓撲關系,人們甚至可以透過搜集視皮層的fMRI訊號來重建人眼看到的文字/影像,即所謂Mind Reading[4-7].


視覺訊號傳遞到V1之後,會繼續向更高級的視覺皮層傳遞,最早在根據獼猴(Macaque Monkey)視皮層的解剖結果,人們重建了其各個視皮層之間的分級結構[7]:


從初級到更高級的視覺皮層,視覺資訊逐級傳遞。人腦理解的內容越來越復混成、抽象化,由「模式」變成具體的"物",再到物的特性和物與物之間的關系。在逐級傳到過程中,人們也註意到,其在皮層的傳到可以大體分成兩個通路,腹側通路(Ventral Pathway/Stream)和背側通路(Dorsal Pathway/Stream)[8]。


其中 「Where」跟物體的位置和運動處理有關,「When」跟物體的辨識有關 [9]。但是該模型仍廣受批評。


透過以上對分級結構的了解可以理解,在分級結構中任何一個區域的功能受損,都會影響人腦對運動的辨識和跟蹤,各種研究也證實了這一點[10-14]。人對運動的感知和理解,並不是局限在某一個腦區或者幾個腦區,而是全腦參與的活動[15]。人腦在運動處理上,除了有被動的運動感知,還有主動的運動追蹤,即凝視(共軛凝視,conjugate gaze)能力。


掃視系統 (saccadic system),最常呼叫的系統,在人主動的調整凝視方向時使用[16];

追蹤系統 (pursuit system),追蹤運動物體;

視動反射系統 (Optokinetic reflex system),物體出現在視野,眼睛會追蹤,當物體消失,人眼會反射性的回到凝視物體首次出現的位置;

前庭-眼 反射系統 (Vestibulo–ocular reflex system),協調頭部的運動以獲得穩定的影像,是眼睛的「三軸穩定平台」。

因而人眼就像一台高靈敏度、快速聚焦、快速響應、三軸穩定的攝影機,目前人類還造不出在對焦能力上足以和人眼比肩的攝影機,更別說做到跟眼睛同等體積了。人腦在運動辨識及追蹤處理上,目前區別於電腦運動辨識追蹤的重要一點是, 人腦的辨識追蹤是即時的,並能反饋控制眼睛的主動追逐。 在該機制下,透過「where」和「what」通路處理的資訊,會傳遞到額葉眼領域(FEF, Frontal eye fields)等眼動控制中心,作出眼球運動響應。該機制因此有如下優點:

  • 能永遠讓目標處在清晰度最高的視野中間和聚焦點
  • 一次辨識和追蹤失敗,可以回來再看
  • 根據物體之間的相對運動區分物體
  • 能跟記憶關聯,幫助物體辨識和追蹤
  • 運動預判
  • 在目前沒有能力如此強大的攝影機機的背景下,目前做的電腦運動辨識追蹤主要是基於被動影像的處理,即不會根據處理結果調整聚焦和鏡頭方向。在該條件下,對追逐演算法引入學習能力,仍然可以大幅提高追蹤速度和準確性,如Tracking-Learning-Detection (TLD) [17]方法:

    在影像理解方面,人腦的影像理解既有 bottom-up機制,又有top-down機制,兩種相互助益。






