完全自動駕駛距離我們還有多遠，遇到了哪些難以逾越瓶頸？

2022-09-26數位

還差一個gpt++。

其實作在的自動駕駛是基於影像辨識的（如果包含雷射雷達的話，那就是點雲辨識）。

影像辨識技術現在的確已經非常成熟了；尤其基於深度神經網路的辨識準確率甚至可以超過人眼。

但，問題來了：我們人類雖然的確是依賴眼睛「導航」的；但如果出現了誤辨識、比如把路牌看成人了、把路邊廣告牌上的風景/道路看成路口了、把公交車上的廣告明星當成過街的行人了……那沒關系，我們還有大腦，可以立即做一個邏輯推斷——不對！我現在在高速公路上，這是城市街道不是高速公路！

但，電腦程式做不到。

更進一步的，我講過自己開車的一個案例：去火車站，路上見到4個小孩打鬧。其中一個打了另一個一下，轉身就跑過了馬路；另一個追著就過去了。然後剩下兩個哈哈大笑，隨即第三個也追上去了，只剩第四個站在路邊笑的直不起腰。

我熟悉兒童心理。所以立即踩了一腳剎車，把車速降低到5km左右。果然，第四個笑完，什麽都不看直接沖過馬路，追著另外三個去了。

如果不剎車，你覺得這危險不危險？

那麽，問題來了：這樣的程式，應該怎麽寫？

其實，因為影像辨識失誤造成的自動駕駛車禍已經發生過很多次、也死了不少人了。

比如，去年還是什麽時候，一名華裔工程師開特斯拉回家，就因為路面標線模糊造成車輛失控，直接撞了隔離墻。車毀人亡。

人開車顯然是不會這樣的。因為我們可以根據周圍環境迅速做出推斷。

不需要明顯的標線（影像辨識依賴的「錨」），我們自己看著道路、就知道標線應該是什麽樣子、哪裏缺損了、該如何補。

類似的，路上出現了陰影/疑似坑穴，我們也能提前發現、做好推斷然後迅速采取措施。

類似「看到孩子打鬧，猜到最後一個孩子會過馬路」這樣的推斷是平凡而瑣碎的，伴隨著我們開車的每分每秒——比如，我學車時，有人給我講過，說你要註意自由車/電動車/摩托車，這些車沒有或者不會打轉向燈，你要註意他看哪個方向。如果騎車者突然往左看了一眼，那麽他很可能馬上就要左轉；此時汽車駕駛員就必須註意減速，別撞上去。

再比如，路上見了個紙盒子、掉了張報紙、塑膠袋，最好不要壓上去。因為下面/裏面可能有釘子。尤其人在外地，輪胎被紮麻煩就大了。

還有，有的路標線清晰寬敞……但其實是一條斷頭路，前方直接石墩堵死。人類司機可以大老遠看出問題、切換到支路；自動駕駛怎麽辦？

或者，前方學校，斑馬線附近畫了很多小朋友的畫像，提醒司機註意。人眼可以一眼看出這是一幅畫，畫在地上的平面畫；自動駕駛呢？

換句話說，自動駕駛之所以無法替代人類司機，或者說L2之所以被卡的死死的、無論如何都提不到L3水平，原因就在於，整個駕駛過程中，是存在無數的「推斷」的。

這些「推斷」包括但不限於地理知識、生活常識、施工/工地見聞乃至邏輯學、心理學等方面的知識——當然，僅僅是這些知識的入門；入門，但實用，而且無處不在。

但這個推斷，是傳統電腦程式做不到的。

我們可以提前寫很多很多的判斷、搞出無數的預設場景……但我們沒有辦法預設所有場景。

從這個角度看的話，其實L2、L3、L4之類的劃分是非常的拍腦袋的、也是不科學的。

原因很簡單，L3想要做到可行水平，那麽「道路狀況推斷」就必須做。不能道路標線模糊了你就把人撞死。

同樣的，道路標線再清晰，地上撒了釘子、放了破胎器，那就必須立即緊急停車，一步都不能多走。

類似的，彎道，沒有視野；聽見前方當的一聲悶響然後飄過來幾絲煙氣——怎麽辦？

你當然應該推斷到「前方可能出了車禍所以必須立即減速」，對吧。