【長安十二時辰】有哪些細思極恐的細節？

2016-12-31影視

熱搜中看到【長安十二時辰】運用大數據破案,頓覺驚奇,便找來看了一下.

第一集中,徐賓要查張小敬的老底. 揚言,十人同查,兩刻內可查出張小敬家一年內在長安縣的房屋買賣和戶籍資訊. 我覺得這有點厲害,他是否在吹牛呢？

首先分析徐賓的話,"一年內"是個關鍵詞,這表明戶籍庫的建立可能是這種情形: 主表記錄初始戶籍,每年僅記錄戶籍變動並產生新的次表. 當然,如果直接在主表添加戶籍變動資訊會更加方便查詢,但這解釋不了"一年內"的說法,此處我們理解為,由於未知的原因,此大數據部門選擇了十分復雜的建庫方法.

我們首先假設主表為亂序,次表為時序,如果要做到"悉數調出",查人家底,那就免不了遍歷全庫. 假設這裏有兩個並列行程,一個查房產,一個查戶籍, 人數對半分,5執行緒查戶籍,每次尋找(翻閱一個卷宗)耗時5秒(快於常識速度). 那麽,兩刻鐘(1800秒)內僅能遍歷1800條記錄. 百度資料顯示,唐朝天寶年間,長安約有固定加流動人口近200萬(可靠性?). 長安分萬年和長安兩縣,假設人口是均勻分布的,那麽長安縣有約100萬人口,遠超1800條的尋找能力. 所以這定然不是個亂序集.

我們再假設這是一個加過索引的順序集,一種可能的方式是依據姓氏讀音索引. 查閱了一些資料,唐朝語音系統使用的是【切韻】中的193韻. 依據193韻索引後,假設姓氏讀音也是均勻分布的,那麽1800秒的覆蓋能力可以達到35萬條. 然而這是在上文中多個假設之下的理論值,事實上這個數碼會小很多,因為姓氏分布並不均勻,而且張姓是大姓.

徐賓敢在領導面前說"兩刻必有結果",這表明他們所使用的方法效率要高得多,並且經得住實際操作的考驗. 而解決方法只有一個——進一步哈希.

這就不得了了,用人工來做這件事,簡直可以稱得上是"偉大的工程"了. 中國人民,就是厲害——從很久之前就這麽厲害了——哈哈哈哈哈哈哈.