當前位置: 華文問答 > 數位

完全自動駕駛距離我們還有多遠,遇到了哪些難以逾越瓶頸?

2022-09-26數位

還差一個gpt++。

其實作在的自動駕駛是基於影像辨識的(如果包含雷射雷達的話,那就是點雲辨識)。

影像辨識技術現在的確已經非常成熟了;尤其基於深度神經網路的辨識準確率甚至可以超過人眼。

但,問題來了:我們人類雖然的確是依賴眼睛「導航」的;但如果出現了誤辨識、比如把路牌看成人了、把路邊廣告牌上的風景/道路看成路口了、把公交車上的廣告明星當成過街的行人了……那沒關系,我們還有大腦,可以立即做一個邏輯推斷——不對!我現在在高速公路上,這是城市街道不是高速公路!

但,電腦程式做不到。

更進一步的,我講過自己開車的一個案例:去火車站,路上見到4個小孩打鬧。其中一個打了另一個一下,轉身就跑過了馬路;另一個追著就過去了。然後剩下兩個哈哈大笑,隨即第三個也追上去了,只剩第四個站在路邊笑的直不起腰。

我熟悉兒童心理。所以立即踩了一腳剎車,把車速降低到5km左右。果然,第四個笑完,什麽都不看直接沖過馬路,追著另外三個去了。

如果不剎車,你覺得這危險不危險?

那麽,問題來了:這樣的程式,應該怎麽寫?

其實,因為影像辨識失誤造成的自動駕駛車禍已經發生過很多次、也死了不少人了。

比如,去年還是什麽時候,一名華裔工程師開特斯拉回家,就因為路面標線模糊造成車輛失控,直接撞了隔離墻。車毀人亡。

人開車顯然是不會這樣的。因為我們可以根據周圍環境迅速做出推斷。

不需要明顯的標線(影像辨識依賴的「錨」),我們自己看著道路、就知道標線應該是什麽樣子、哪裏缺損了、該如何補。

類似的,路上出現了陰影/疑似坑穴,我們也能提前發現、做好推斷然後迅速采取措施。

類似「看到孩子打鬧,猜到最後一個孩子會過馬路」這樣的推斷是平凡而瑣碎的,伴隨著我們開車的每分每秒——比如,我學車時,有人給我講過,說你要註意自由車/電動車/摩托車,這些車沒有或者不會打轉向燈,你要註意他看哪個方向。如果騎車者突然往左看了一眼,那麽他很可能馬上就要左轉;此時汽車駕駛員就必須註意減速,別撞上去。

再比如,路上見了個紙盒子、掉了張報紙、塑膠袋,最好不要壓上去。因為下面/裏面可能有釘子。尤其人在外地,輪胎被紮麻煩就大了。

還有,有的路標線清晰寬敞……但其實是一條斷頭路,前方直接石墩堵死。人類司機可以大老遠看出問題、切換到支路;自動駕駛怎麽辦?

或者,前方學校,斑馬線附近畫了很多小朋友的畫像,提醒司機註意。人眼可以一眼看出這是一幅畫,畫在地上的平面畫;自動駕駛呢?

換句話說,自動駕駛之所以無法替代人類司機,或者說L2之所以被卡的死死的、無論如何都提不到L3水平,原因就在於,整個駕駛過程中,是存在無數的「推斷」的。

這些「推斷」包括但不限於地理知識、生活常識、施工/工地見聞乃至邏輯學、心理學等方面的知識——當然,僅僅是這些知識的入門;入門,但實用,而且無處不在。

但這個推斷,是傳統電腦程式做不到的。

我們可以提前寫很多很多的判斷、搞出無數的預設場景……但我們沒有辦法預設所有場景。

從這個角度看的話,其實L2、L3、L4之類的劃分是非常的拍腦袋的、也是不科學的。

原因很簡單,L3想要做到可行水平,那麽「道路狀況推斷」就必須做。不能道路標線模糊了你就把人撞死。

同樣的,道路標線再清晰,地上撒了釘子、放了破胎器,那就必須立即緊急停車,一步都不能多走。

類似的,彎道,沒有視野;聽見前方當的一聲悶響然後飄過來幾絲煙氣——怎麽辦?

你當然應該推斷到「前方可能出了車禍所以必須立即減速」,對吧。

那麽,現在我要問了:哪個公司敢說自己能做到?

甚至,基於傳統編程方案,哪個二蛋敢說這事有可能做到?

這是做不到的。 L3是永遠不可能用傳統編程方案觸及的

因為它裏麵包含了推斷。不管這個(開放性的)推斷有多弱,它都不是預設邏輯的、傳統的軟體工程能解決的問題。

反過來說也對:一旦能解決推斷問題——比如,接入chatgpt、把網路攝影機/麥克風捕捉到的各種資訊巨細靡遺的送出給它,要求它立即做出判斷(至多延遲2秒,不能更久了)——那麽,其實直接到L5了,對吧?

但,chatgpt我們現在已經很熟悉了。它的推斷能力還是有些薄弱,可靠性不是很好。很多時候,它的答案取決於我們提問的方式……

想要讓它可靠,那麽訓練數據就要更多、就要用更好的方案更強的硬體……

熟悉深度神經網路的都知道,其實我們不可能劃分級別、按L3、L4、L5的訓練它的。

要麽全有,要麽全無。這就是問題所在。

換句話說,L2和L3的劃分有意義;L3到L5的劃分是ppt。

所有的問題最終歸結為一個,就是如何訓練一個可靠的、有推斷能力的AI,可以近即時的、像人一樣的做出決策。

換句話說,chatgpt之類AI什麽時候能足夠的靠譜。