上帝不擲骰子？商湯科技AI大裝置想試試

2021-05-25科學

李根發自凹非寺
量子位報道 | 公眾號 QbitAI

對撞機，發現新物理粒子的方法和裝置。

眾所周知的高能物理基礎設施，人類基礎物理領域研究的集大成成果。

現在，商湯科技也搞了一個，同樣是其多年產學研積蓄後的成果轉換，是其最新技術成果的集大成體現，是一整套完整的AI基礎設施。

取名 SenseCore商湯AI大裝置 。

商湯CEO徐立說，這是商湯長線核心競爭力的標誌、公司持續經營和更大規模躍遷的護城河，以及推動AI時代生產要素降低的關鍵一步。

實際上，企業家一面的徐立對此還顯得克制，當他科學家的那一面流露，會激動得語速飛快：

靠人腦的方式可能永遠趕不上宇宙膨脹的速度，如果要真正解開宇宙真理，輸入的依據就不能單靠此時此地此身的人類有限認知，甚至不必追求當下的過程可解釋，可以試著用更大的數據，更強的算力，或許還會撞出更多預期之外的結果。

所以商湯的AI大裝置，你可以理解為GPT-3、AlphaFold路徑上的更大規模落地，是大數據、大模型和超強算力的三位一體實踐，也是 input 到 output 之間沿著「大致正確方向」的 大力出奇跡 。

商湯AI大裝置如何組成？

在上海臨港新片區，一座宛如芯片的建築群將在今年年底投入使用。

這是商湯全新的AI算力中心（AIDC），計算峰值速度將達到 3740 Petaflops （1 petaflop等於每秒1千萬億次浮點運算）——作為參照，OpenAI的千億參數模型GPT-3完整訓練一次需要3.14E23次浮點運算，而商湯臨港AIDC的算力僅在一天內即可完成。

毫無疑問，商湯的這個全新AIDC，目標就是為更大規模參數模型的訓練而來。

但在商湯AI大裝置中，AIDC不到1/3又1/3。

商湯AI大裝置SenseCore的全貌，包含了三層：

算力層（AI芯片及處理卡+AIDC+AI傳感器）

平台層（模型生產+訓練平台+數據平台）

演算法層（演算法工具箱+開源框架）

三位一體，以基礎設施方式輸出模型，把AI能力輸出到企業服務、城市管理和個人生活等三大落地方向中。

區別於「AI模型」小作坊式的打造，AI大裝置更像流水線工廠，可以實作不同場景的演算法模型的底層抽象，以模組化平台套件打造通用型服務平台。

特別是針對AI落地中更長尾的客戶和場景，能夠在組合不同演算法套件的基礎上完成新場景的客製，以低邊際成本實作對新場景的規模化覆蓋。

並且商湯基於AI平台基礎設施的系統協同性，可以以 半自動化、自適應 的方式，就能實作批次的演算法模型生產和叠代升級。

為什麽商湯要搞AI大裝置？

商湯CEO徐立說，本質是讓AI落地擺脫人力密集的狀態。

他認為AI之所以人力密集，是因為生產效率不高，而生產效率提升的關鍵，是生產要素的成本能足夠低。

在AI落地初期階段， 計畫客製 是行業最普遍的方式，比如做一個手機檢測的演算法，需要上百人的團隊，但換一種場景的套用模型，又得上百人進來……

好比不同的場景裏蓋樓，堆人是解決問題常用的方法。

但如果按照上述計畫包工的方式搞，AI落地就會顯得天方夜譚。

商湯的模式不是秘密： 「商湯驅動，賦能百業」 ，用 「1（基礎研究）+1（產品及解決方案）+X（行業）」 的方式展開各行各業的落地。

據官方數據，創辦6年來，商湯集結起一支 2000人 規模的研發團隊，推出了 13000多個 技術模型，以及 17000多個 營運模式。

所以規模化多場景不同領域落地的過程中，就提出了 通用模型 的要求。

只是問題也隨之而來，模型越通用，訓練數據就越大，模型參數也越大，對算力的要求也就越高。

在GPT-3一炮打響之前，對於這種大規模參數的通用模型，業內外都存在質疑。

因為之前的共識是：越厲害的演算法，參數和算力可以更少，提升模型精度才是正道。

而且這種「精妙」著稱的演算法方向，意味著模型對於運算和執行的精準部署，就像數學解題中，嚴絲合縫地過程推導，最後精準給出結果。

所需的「算力」，理應越少越好。

要來一個暴力解題的方式：吃最多數據，一通暴力計算，最後給出結果——即便是正確答案，也不被推崇。

商湯起步伊始，為手機、互聯網公司供應AI方案，走的就是精妙模型的路線。

但隨著規模化擴張，開始進入To B行業和城市業務領域後，精妙技術模型在行業長尾需求和套用中的「短板」也就暴露出來。

比如在業務落地中，優先選擇的自然是流量大、顯示度高、高頻，投入產出比高的頭部套用。於是大家爭奪的就是像地鐵刷臉通行這樣的套用。

而城市裏防火、防水等套用，頻次低，需要累積和投入的資源又一點不比頭部套用少，雖然有剛需，但處於長尾端，不受青睞。

最終，從需求方角度，如果不能在一個場景裏解決包括長尾在內的問題，切換新方案、並為此買單的意願就會降低。

所以從AI落地的商業化和價值閉環出發，從需求端推動來看，「眉毛頭發一把抓」，大參數模型也就變得自然而然。

此外，AI技術的演進路線上， 反共識 的趨勢從更多維度顯現。

從AlexNet以來看過去十年AI模型的發展，每年最新的演算法網路、最好的技術，對於算力的需求，幾乎是呈數量級的增長，每年都大概會有十倍的算力需求增長。

徐立躬身其間，對這種趨勢的感知也非常明顯。

他認為造成這種趨勢的原因其實很簡單：表達越來越豐富，模型越來越通用，參數也就越來越多，算力要求也就越高。

行業整體而言，最領先的演算法對於算力的需求翻了近百萬倍。

其次， 技術本身 的演進。

原先的技術路線朝著單一方向、單一路線前進。通用AI看起來可望不可及，然而過去幾年在通用問題的剛需驅動下，一些通用語言模型、通用視覺模型，甚至通用多模態模型開始取得突破，曾經不work的正在變成可能。

商湯CEO坦承，通用模型的打造確實花費了大力氣，但好處是在長尾問題解決上效果顯著。

伴隨而來的挑戰，是對新一波以算力為核心的AI基礎設施的渴求。

「就好像在物理探索中，如果沒有粒子對撞機，很多核心工作沒法展開。」

徐立強調，商湯在AI規模化落地的大潮裏，必須到了解決通用模型挑戰、必須有集中化大規模算力的時候。

他回溯稱，2016年、2017年開始，商湯就開始了大參數模型的挑戰，SenseNet被做到了1000多層。

隨著模型網路越深、參數越大，算力的問題變得突出。

於是2018年開始，商湯開始更加嚴肅地審視芯片、硬體，並在自建算力中心的基礎上，完成了大裝置的「原型機」打造。

其後，投資56億的AIDC智算中心開工，2021年底交付。

當然，過程中還發生了兩件AI領域的最大新突破，給商湯上下吃下定心丸。

一件發生在2019年， OpenAI 開始大參數模型打造，並在2020年以 GPT-3 轟動全球。

另一件則是DeepMind的 AlphaFold 2 。

在徐立看來，兩大不同方向的進展，背後其實有同一個 核心路徑 ：

輸出方向大致可確定，輸入更大的數據，「撞」出結果。

而商湯的AI大裝置，不正是這種核心路徑的實踐機器、基礎設施，AI領域的粒子對撞機嗎？

AI大裝置有什麽用？

自然是可以 打造大參數模型 。

首先可以解決AI落地中的 長尾問題 。

比如在城市的日常治理中，把「城管」的工作場景，實作全AI流程覆蓋。

無論是暴露垃圾的問題，共享單車亂堆亂放的問題，還是疫情、火災、汛情、人群擁擠踩踏、危化品泄露……等等公共場景中的各類問題，不管高頻還是低頻，都能實作一站式解決。

從發現、報警、執行到結案，全流程都可以實作AI化，用人機互動的方式實作更加高效的城市治理。

而且這不是設想，是商湯用AI大裝置原型機，在上海一網統管計畫中落地的現實。

其次，大參數模型的打造，還是批次打造的那種。

按商業場景分，大的如城市、汽車、工業，小的像螺絲螺帽、冰箱內物品辨識……

按技術場景分，視覺領域、語言領域、自動駕駛領域、醫療領域、制藥領域……

每一個領域，是不是都可以足夠多的數據輸入，然後用大裝置對撞生成結果？

比如在蛋白質結構預測方向，之前即便用AI的方法，也需要既有非常懂生物的專家，還得非常懂AI的專家協作……雙方精心設計流程，精心準備輸入數據，最後才有可能得到正確的結果？

大裝置會有什麽不同？

知道大致正確的方向和目標，就是預測蛋白質結構，但不用精心準備輸入數據和流程，甚至可以群策群力，把所有可能相關的數據都輸入，最後「大裝置」窮盡所有可能性，同樣解出正確的結果。

所以沿著這個層面展開，AI大裝置意味著 落地門檻 的降低。

從AI展開行業落地那一天開始，主導權到底是歸屬AI博士們，還是傳統行業老兵的話題，討論從未有過間斷，也從未有過共識。

最具參考的一種答案是既要也要，強調融合共生。

然而如果需要融合，那落地的規模和速度自然就會大受局限，畢竟懂AI、掌握AI能力的人，相比傳統行業人才，實在九牛一毛。

而作為基礎設施，AI大裝置在本質路徑上，把AI能力變成了一個 輸入→輸出 的機器和工具。

運用這個工具的，可以來自任何行業和領域。

只要有數據思維，定義清楚目標方向，懂得找可能的數據，然後大裝置就跟「相機」、「電腦」沒有本質不同，都是工具。

所以徐立說，這就是為什麽商湯把AI教育作為重要業務組成的原因。

「現在的教育告訴年輕人，需要每一步嚴格推導產生正確結果才能給分，但未來可能也有一種得出正確結果的方法，不需要你掌握推導過程。」

用好你需要的數據，知道如何操作和使用，然後把數據放入「裝置」，一樣能解題。

這也是為什麽會有一種觀點認為：下一個柯潔李世石一樣的圍棋高手，不一定要學圍棋。

實際上，這種思維下，教育方法確實值得被重新審視。

畢竟現如今我們稱贊的「計算天才」，不是口算、心算最厲害的那類人，而是最懂得如何利用電腦工具的人。

當然，如果沿著「AI大裝置」的思路，擴充套件到更宏觀的「認識世界」，人類對於規律的發現和認知，是否也會被重新整理？

人類對於世界的認識和改造，究竟是一種怎樣的模式？

亞里斯多德提倡演繹，這是一種強調因果的強推導，是一種線性的演進和發展。

但另一種模式，牛頓的時代、愛因史坦的時代，展現的卻是躍遷式進步。

他們帶來的基礎理論突破，當時甚至只是一種「假設」，是在其後一代甚至幾代天才歸因中，才完成過程論證。

只是歷史車輪相似的是，每一次基礎理論的突破，都帶來一波更有力量的發明創造和更高級的文明。

徐立把這種天才推動的文明躍遷，笑稱為 「上帝拍腦袋」 。

不過更令他著迷的是，接下來是不是可以由 大裝置來拍 ？

回顧過去，人類的科學探索都是基於 已知認知 推未知，毫無疑問就會受限於「已知認知」，更何況人類歷史上不少重要的發明和發現，還是「無心插柳」的結果。

但AI大裝置提供的新範式，提供了另一種路徑：

探索未知，可以不依賴於人類已經理解的輸入來作為輸入，可以嘗試把更大更多的數據放進來，搞不好就能找出更趨近本質的規律。

而AI最終極的工具能力，不正是幫助人類發現、找出更多，更終極的規律和真理嗎？

重新整理商湯

最後，在AI大裝置浮出水面之際，也是時候重新審視商湯。

商湯是一家什麽樣的公司？

創辦6年來，它備受矚目，但又面目「模糊」。

商湯時常被談論它的規模增速和融資估值，也始終被熱議「AI賦能百業」的可能性和可行性。

更因為其落地領域廣泛，技術和產品不直接To C，又容易在輿論認知中被盲人摸象。

但現如今，最新集大成成果 AI大裝置 建立完成，商湯的歸去來都得到了最好的連點成線，商湯的核心和邊界、商湯的護城河、商湯從技術到商業的永續，以及商湯將會帶來的AI變革，都能在 AI大裝置 得到完整解答。

在AI大裝置的思路之下，商湯把聚集的AI博士之力，架構成了不需要AI博士才能使用的AI工具，並且可以在各個領域都實作輸出和賦能。

就像電被發現後，發電機和發電廠所承擔的角色一樣。

徐立透露，2018年開始大膽設想時，這種發展路線甚至是反共識的，但商湯內部還是頂住壓力，做重做深，碰硬體碰底層，然後一搞就是3年。

這有點像黎明前的登山，知道在向上走，卻不知道是否是登頂的正確道路。

好在OpenAI的GPT-3、DeepMind的AlphaFold，以及越來越多業內巨頭玩家拿出的超大參數模型，不同維度驗證了這確實是一條通向未來的路。

徐立還透露，按照內部規劃，硬體成本投入56億起的AI大裝置，在開起執行的2年後就能回本，到2025年就會進入盈利軌域。

這是商湯面向未來的 長線核心競爭力 ，而建立這種長線競爭力的時間周期，則構成壁壘和護城河。

更重要的是，AI大裝置啟動，AI賦能的門檻進一步降低，整個數位化和智慧化的行程，就會進一步被加速。

商湯當前的北京辦公室所在地，理想國際大廈，是上一代原創技術公司百度，從技術創新到商業創新的「福地」。

徐立也喜歡用搜尋引擎來類比「AI大裝置」會給商湯、給AI行業帶來的變革。

他認為今天互聯網的繁榮，是因為搜尋引擎成功地把資訊——高頻的、低頻的、高價值的、長尾的，在虛擬空間實作了連結。

而現實世界，始終缺少一樣的「搜尋引擎」。

因為現實世界中很多東西還無法結構化的、可解析。但AI大裝置如果成功，就能加速這種真實世界的結構化、數位化。

順理成章，互聯網開發中兩大核心技術—— 搜尋和推薦，也就能在現實世界得到復刻和套用。

並且相比互聯網經濟創造的價值，人類更大一部份的經濟活動和創造，原本就線上下。

所以徐立堅信，AI正在進入下一個時間點，一個從技術創新周期轉入商業創新周期的時間點。

「搜尋引擎起來的時候，有圍繞搜尋引擎創業的生態；視訊平台起來的時候，有圍繞視訊平台展開的商業生態。」

這位商湯聯合創始人說，很多人問他，AI創業是不是過時了？

他的回答是：

恰恰是正當其時的時候。

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友，歡迎贊同、關註、分享三連վ'ᴗ' ի ❤