上海人工智慧實驗室聯合商湯科技與高校共同釋出通用視覺技術體系「書生」

2021-11-17科學

11月17日，上海人工智慧實驗室聯合商湯科技SenseTime、香港中文大學、上海交通大學共同釋出新一代通用視覺技術體系「書生」（INTERN），該體系旨在系統化解決當下人工智慧視覺領域中存在的任務通用、場景泛化和數據效率等一系列瓶頸問題。目前技術報告【INTERN: A New Learning Paradigm Towards General Vision】已在arXiv平台釋出[1]（http:// arxiv.org/abs/2111.0868 7 ），基於「書生」的通用視覺開源平台OpenGVLab也將在明年年初正式開源，向學術界和產業界公開預訓練模型及其使用範式、數據系統和評測基準等。OpenGVLab將與上海人工智慧實驗室此前釋出的OpenMMLab[2]（http:// github.com/open-mmlab ）、OpenDILab[3]（http:// github.com/opendilab ）一道，共同構築開源體系OpenXLab，助力通用人工智慧的基礎研究和生態構建。

上海人工智慧實驗室聯合商湯科技、香港中文大學、上海交通大學共同釋出新一代通用視覺技術體系「書生」（INTERN）

任務通用和數據學習效率是制約當前人工智慧發展的核心瓶頸問題。根據相關技術報告，一個「書生」基模型即可全面覆蓋分類、目標檢測、語意分割、深度估計四大視覺核心任務。在ImageNet（http://www. image-net.org/challenge s/LSVRC/index.php ）等26個最具代表性的下遊場景中，書生模型廣泛展現了極強的通用性，顯著提升了這些視覺場景中長尾小樣本設定下的效能。

相較於當前最強開源模型（OpenAI 於2021年釋出的CLIP），「書生」在準確率和數據使用效率上均取得大幅提升。具體而言，基於同樣的下遊場景數據，「書生」在分類、目標檢測、語意分割及深度估計四大任務26個數據集上的平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。「書生」在數據效率方面的提升尤為令人矚目：只需要1/10的下遊數據，就能超過CLIP（http:// openai.com/blog/clip ）基於完整下遊數據的準確度，例如在花卉種類辨識FLOWER（http://www. robots.ox.ac.uk/~vgg/da ta/flowers/102/index.html ）任務上，每一類只需兩個訓練樣本，就能實作99.7%的準確率。

隨著人工智慧賦能產業的不斷深入，人工智慧系統正在從完成單一任務向復雜的多工協同演進，其覆蓋的場景也越來越多樣化。在自動駕駛、智慧制造、智慧城市等眾多的長尾場景中，數據獲取通常困難且昂貴，研發通用人工智慧模型，對於降低數據依賴尤為重要。而突破「工業套用紅線」的模型，需滿足同時完成多工、覆蓋大量長尾場景，且基於下遊小樣本數據進行再訓練等要求。上海人工智慧實驗室、商湯科技、港中文以及上海交大聯合推出的「書生」通用視覺技術體系，體現了產學研合作在通用視覺領域的全新探索，為走向通用人工智慧邁出堅實的一步。借助「書生」通用視覺技術體系，業界可憑借極低的下遊數據采整合本，快速驗證多個新場景，對於解鎖實作人工智慧長尾套用具有重要意義。

「當前發展通用視覺的核心，是提升模型的通用泛化能力和學習過程中的數據效率。面向未來，‘書生’通用視覺技術將實作以一個模型完成成百上千種任務，體系化解決人工智慧開發中數據、泛化、認知和安全等諸多瓶頸問題。」上海人工智慧實驗室主任助理喬宇表示。

商湯科技研究院院長王曉剛表示，「‘書生’通用視覺技術體系是商湯在通用智慧技術發展趨勢下前瞻性布局的一次嘗試，也是SenseCore商湯AI大裝置背景下的一次新技術路徑探索。‘書生’承載了讓人工智慧參與處理多種復雜任務、適用多種場景和模態、有效進行小數據和非監督學習並最終具備接近人的通用視覺智慧的期盼。希望這套技術體系能夠幫助業界更好地探索和套用通用視覺AI技術，促進AI規模化落地。」

書生（INTERN）在分類、目標檢測、語意分割、深度估計四大任務26個數據集上，基於同樣下遊場景數據（10%），相較於最強開源模型CLIP-R50x16，平均錯誤率降低了40.2%，47.3%，34.8%，9.4%。同時，書生只需要10%的下遊數據，平均錯誤率就能全面低於完整（100%）下遊數據訓練的CLIP。

階梯式學習：七大模組打造全新技術路徑

書生（INTERN）技術體系可以讓AI模型處理多樣化的視覺任務

通用視覺技術體系「書生」（INTERN）由七大模組組成，包括通用視覺數據系統、通用視覺網路結構、通用視覺評測基準三個基礎設施模組，以及區分上下遊的四個訓練階段模組。

書生作為中國古代讀書人的經典形象，代表著一個透過不斷學習、不斷成長進而擁有各方面才能的人格化角色：從基礎的知識技能學習開始，到對多種專業知識觸類旁通，進而成長為擁有通用知識的通才。將全新的通用視覺技術體系命名為「書生」，意在體現其如同書生一般的特質，可透過持續學習，舉一反三，逐步實作通用視覺領域的融會貫通，最終實作靈活高效的模型部署。

當前的AI系統開發模式下，一個AI模型往往只擅長處理一項任務，對於新場景、小數據、新任務的通用泛化能力有限，導致面對千變萬化的任務需求時，須獨立開發成千上萬種AI模型。同時，研究人員每訓練一個AI模型，都需構建標註數據集進行專項訓練，並持續進行權重和參數最佳化。這種低效的學習訓練方法，導致人力、時間和資源成本居高不下，無法實作高效的模型部署。

「書生」的推出能夠讓業界以更低的成本獲得擁有處理多種下遊任務能力的AI模型，並以其強大的泛化能力支撐智慧城市、智慧醫療、自動駕駛等場景中大量小數據、零數據等樣本缺失的細分和長尾場景需求。

通用視覺技術體系「書生」（INTERN）由七大模組組成，包括3個基礎設施模組、4個訓練階段模組

持續成長：「四階段」提升通用泛化

在「書生」（INTERN）的四個訓練階段中，前三個階段位於該技術鏈條的上遊，在模型的表征通用性上發力；第四個階段位於下遊，可用於解決各種不同的下遊任務。

第一階段，著力於培養「基礎能力」，即讓其學到廣泛的基礎常識，為後續學習階段打好基礎；第二階段，培養「專家能力」，即多個專家模型各自學習某一領域的專業知識，讓每一個專家模型高度掌握該領域技能，成為專家；第三階段，培養「通用能力」，隨著多種能力的融會貫通，「書生」在各個技能領域都展現優異水平，並具備快速學會新技能的能力。

在循序漸進的前三個訓練階段模組，「書生」在階梯式的學習過程中具備了高度的通用性。當前進演化到第四階段時，系統將具備「遷移能力」，此時「書生」學到的通用知識可以套用在某一個特定領域的不同任務中，如智慧城市、智慧醫療、自動駕駛等，實作廣泛賦能。

產學研協同：開源共創通用AI生態

作為AI技術的下一個重大裏程碑，通用人工智慧技術將帶來顛覆性創新，實作這一目標需要學術界和產業界的緊密協作。上海人工智慧實驗室、商湯科技、港中文以及上海交大未來將依托通用視覺技術體系「書生」（INTERN），發揮產學研一體化優勢，為學術研究提供平台支持，並全面賦能技術創新與產業套用。

明年年初，基於「書生」的通用視覺開源生態OpenGVLab將正式開源，向學術界和產業界公開預訓練模型、使用範式和資料庫等，而全新建立的通用視覺評測基準也將同步開放，推動統一標準上的公平胡準確評測。OpenGVLab將與上海人工智慧實驗室此前釋出的OpenMMLab、OpenDILab一道，共同構築開源體系OpenXLab，持續推進通用人工智慧的技術突破和生態構建。

附：

技術報告【INTERN: A New Learning Paradigm Towards General Vision】連結：http:// arxiv.org/abs/2111.0868 7

OpenMMLab開源網址：http:// github.com/open-mmlab

OpenDILab開源網址：http:// github.com/opendilab