當前位置: 華文問答 > 科學

你的科研能力從什麽時候開始突飛猛進的?

2022-03-29科學

當我不再拿著錘子找釘子,不再去瞎湊模型硬卷分數,而是 先深度、反復思考研究領域到底有哪些未解決甚至未被發現的痛點,再去針對性設計演算法後 ,我的科研成果得到了一個質的飛躍。

我的研究領域主要是自動駕駛感知與仿真。2021年年初開始讀博時,整整一年只中了一篇ITSC,而在這之前一作只中過類似ICPR這樣的水會。在2021年年底得益於導師的引導與鞭策下,我忽然領悟上面說的這個看似十分簡單的道理,然後2022年連中多篇一作論文,包括CVPR, ECCV, ICRA, CoRL, IROS, WACV諸多不錯的會議還有SCI一區的論文。在我把主要論文程式碼都全部開源後,收獲了上千star,參照比去年漲了近7倍。這些成果當然離大佬差很多,不過對我來說卻是一個重要的分水嶺。

這個道理是在21年底趕ECCV論文V2X-ViT時頓悟出來的。 這篇是關於一個偏新的領域--協同感知的,即多個L4汽車與路端傳感器可以透過V2X共享感知資訊, 我需要研究出一種最佳的模型來融合這些分享的感知資訊,從而達到更廣、更遠、更精準的感知表現。

最初拿到這個課題,我一拍腦袋就說,這每個智慧體把自己從sensor measurements裏面提取的neural features相互一傳,整個transformer做個attention不就完了嗎?導師聽了之後非常無奈地和我說,你這樣做出來有什麽意義?有真正解決什麽問題嗎?經過靈魂拷問後,我開始進行深度思考,然後忽然靈光乍現:自己一直糾結於演算法設計如何搭積木, 可是卻沒有真的好好想過這個課題本身到底有哪些更實際、真的會影響到未來落地的挑戰 。然後我就畫出了下圖:

我發現,協同感知其實有非常多的domain-specific問題還沒有被很好的探索過,比如資訊傳輸導致的時間延遲,GPS定位不準導致的資訊整體位移偏差,路段傳感器與車端傳感器擺放高度不同、型號不同導致的異構性,可能存在的黑客攻擊通訊等等。發現了這些問題後,自己忽然思路大開,設計演算法也變得簡單了很多 -- 你不再是盲目地搭積木,而是針對每個子問題去設計你的演算法(雖然還是在搭積木LOL), 這樣的最大好處在於,你十分容易講一個well-motivated的故事 。同時由於你在研究一個新的問題,你不需要去卷一些已有的知名榜單,能將這個問題講明白,並且在自己的setting下打敗其他人即可,難度大大降低。於是針對我提出的前三個問題,我和隊友設計了下圖三個不同的transformer component,將他們組合在一起形成了我的V2X-ViT。

ECCV reviewer在他們的comments中全都提到了一點,那就是整篇文章的設計十分motivated, 演算法部份很novel, 這也證實了我這種思路轉變帶來的巨大作用。

這種發現特殊、具有實際價值的問題,然後再魔改最熱門的技術來解決這個特定問題的approach,非常適用於科研發表。於是我思路大開,寫文章忽然輕松了很多。V2X-ViT用的全是LiDAR, 很明顯太貴了,為什麽不換成純camera來做3D預測?這不就相當於一群特斯拉可以互相合作,是不是有潛在的落地價值?於是便有了後來機器人頂會CoRL的CoBEVT。假設每個車的deploy的模型本身就有差異性,這個怎麽解決?於是就又有了兩篇ICRA。

再後來,我發現這種思維模式不僅僅局限於我這個偏新領域的課題,哪怕是很卷的領域也是適用的 。比如最近巨卷無比的BEV感知,大家都在刷那幾點精準度,大部份硬卷的最後都GG了,只有小部份論文能成為幸運兒。但是其實這個領域有很多比提高幾個百分點有意義多的topic, 比如你在某種camera setting下訓練好的模型,挪到另一種不同的setting (譬如車型換了導致camera的6D pose改變,或者camera型號變了)整個模型可能就會變得很差,這就大大限制了現在的模型可大規模deploy的可能性。再比如你六個相機的clock出現了較大的異步怎麽辦,亦或者研究相機位置如何擺放才能達到最大的精度等等,這些都是不錯的topic. 在實驗室與工業界有較大資源差距的情況下,用這樣的思路往往可以避免硬卷,以巧取勝。

不過要真的施行這個看似簡單的方法,其實需要一定的基礎。

  1. 你需要閱讀大量的文獻。一方面你需要了解本領域有哪些問題已經被解決了,另一方面你也需要追蹤最新的演算法來幫助自己後面魔改。同時也不能只局限於自己本領域的論文,譬如V2X-VIT裏面的一個模組就有借鑒一篇data mining的文章。
  2. 你需要有良好的寫作技巧來講清楚你的motivation, 這點非常重要。
  3. 這種思路很多時候需要你自己搭框架,所以也要有一定的程式碼基礎。

其實在我看來,種種另辟蹊徑的思維模式都是表,而非根。當一個人真的充滿熱愛與激情時,突飛猛進只是時間問題。這一點我相信不僅僅適用於科研,適用於各種各樣的領域。