通过以上对分级结构的了解可以理解,在分级结构中任何一个区域的功能受损,都会影响人脑对运动的识别和跟踪,各种研究也证实了这一点[10-14]。人对运动的感知和理解,并不是局限在某一个脑区或者几个脑区,而是全脑参与的活动[15]。人脑在运动处理上,除了有被动的运动感知,还有主动的运动追踪,即凝视(共轭凝视,conjugate gaze)能力。
因而人眼就像一台高灵敏度、快速聚焦、快速响应、三轴稳定的摄像机,目前人类还造不出在对焦能力上足以和人眼比肩的摄像机,更别说做到跟眼睛同等体积了。人脑在运动识别及追踪处理上,目前区别于计算机运动识别追踪的重要一点是,
人脑的识别追踪是实时的,并能反馈控制眼睛的主动追逐。
在该机制下,通过「where」和「what」通路处理的信息,会传递到额叶眼领域(FEF, Frontal eye fields)等眼动控制中心,作出眼球运动响应。该机制因此有如下优点:
在目前没有能力如此强大的摄像机机的背景下,目前做的计算机运动识别追踪主要是基于被动影像的处理,即不会根据处理结果调整聚焦和镜头方向。在该条件下,对追逐算法引入学习能力,仍然可以大幅提高追踪速度和准确性,如Tracking-Learning-Detection (TLD) [17]方法: