因為目前最熱門的幾個業界領域,有不少問題都卡在了數學上。我舉一個緩存(Caching)的例子,無線網路的緩存問題大概是說,一個儲存 N 個檔的伺服器,檔大小設定為單位 1 ,透過無雜訊的廣播通道與 K 個使用者相關聯。每個使用者各自的緩存裝置的容量為 M 。我們的緩存方案分為兩個階段:一是數據的放置階段(Placement phase),在數據需求量較小的空閑時段,利用有余力的通訊資源,向每個使用者的緩存裝置中放置大小為 M 的數據;二是數據的分發階段(Delivery phase),假定在數據需求高峰期,每個使用者隨機向伺服器請求一個完整的檔,伺服器綜合考慮這些需求,透過廣播的形式傳輸大小為R的數據,以滿足所有使用者的需要。這個思路有點像天荒坪發電站搞峰谷電的感覺。
最平凡的思路是,各使用者分別緩存每個檔的 \frac{M}{N} 比例的數據,在數據分發階段伺服器再將各使用者所缺失的各自 1-\frac{M}{N} 部份的數據逐個發放,此時 R=K\cdot(1-\frac{M}{N}) 。為提高傳輸效率,2014年,貝爾實驗室的Ali和Niesen利用網路編碼的思想,創造性地提出了編碼緩存方案。在放置階段,各使用者的緩存按一定編碼規律儲存,獲得局部緩存增益;在分發階段,利用已有的緩存資訊之間的關系,設計所需廣播內容的一定的編碼組合,使得多個使用者可以同時從單次的資訊中譯碼得到所需的部份資訊,從而得到全域緩存增益,但是其局限在於,要將每個檔等分為一個隨著使用者數量K而呈指數增長的參數,眾所周知,指數級別的分劃,在演算法上的難以實作的。而後西南交通大學的一組研究人員用 Array的語言刻畫了組合緩存問題,並構造了另一種方案,雖然 R 相比較而言稍有犧牲,但相對Ali-Niesen方案而言大幅減少了 F 的數目,但遺憾的是, F 依然是隨著 K 而呈指數增長的。此後,此問題繼續轉化為3-partite,3-graph上的一個Turán型問題(所需禁止的是「六個頂點誘導得到三條邊」這樣一個子圖結構,這其實是極值圖論中著名的(6,3)-問題),提出的緩存方案依然保持常數級別的 R ,但 F 減小到了 K 的次指數級別。接著利用類似的思路,Shanmugam等人透過極值圖論中的重要研究物件Ruzsa-Szemeredi圖得到的緩存方案中, F 達到 K 的線性級別,而 R 為 K 的多項式級別。
那麽,這一方向的終極目標則是:我們希望得到 F 為 K 的多項式級別,且 R 為常數級別時的緩存方案。或者能證明這種方案的存在性(不存在性)。
顯然到了現在,關於檔劃分數能否轉化成多項式級別,即達到工業可用的級別,完全取決於數學上能否構造出滿足某些Properties的Hypergraph的問題了。
以上例子大概能夠說明為什麽華為這樣的公司需要招數學博士。
我覺得加入像華為的數學研究所這樣的地方, 更大的好處是你可以真正了解若幹年內的業界,真正關心的問題是什麽。
不過話又說回來,還是應該多學點數學,只有具備解決一些困難數學問題的能力,再進入像華為辦的那些研究所,才有希望真正解決業界關心的問題。