【长安十二时辰】有哪些细思极恐的细节？

2016-12-31影视

热搜中看到【长安十二时辰】运用大数据破案,顿觉惊奇,便找来看了一下.

第一集中,徐宾要查张小敬的老底. 扬言,十人同查,两刻内可查出张小敬家一年内在长安县的房屋买卖和户籍信息. 我觉得这有点厉害,他是否在吹牛呢？

首先分析徐宾的话,"一年内"是个关键词,这表明户籍库的建立可能是这种情形: 主表记录初始户籍,每年仅记录户籍变动并产生新的次表. 当然,如果直接在主表添加户籍变动信息会更加方便查询,但这解释不了"一年内"的说法,此处我们理解为,由于未知的原因,此大数据部门选择了十分复杂的建库方法.

我们首先假设主表为乱序,次表为时序,如果要做到"悉数调出",查人家底,那就免不了遍历全库. 假设这里有两个并行进程,一个查房产,一个查户籍, 人数对半分,5线程查户籍,每次查找(翻阅一个卷宗)耗时5秒(快于常识速度). 那么,两刻钟(1800秒)内仅能遍历1800条记录. 百度资料显示,唐朝天宝年间,长安约有固定加流动人口近200万(可靠性?). 长安分万年和长安两县,假设人口是均匀分布的,那么长安县有约100万人口,远超1800条的查找能力. 所以这定然不是个乱序集.

我们再假设这是一个加过索引的顺序集,一种可能的方式是依据姓氏读音索引. 查阅了一些资料,唐朝语音系统使用的是【切韵】中的193韵. 依据193韵索引后,假设姓氏读音也是均匀分布的,那么1800秒的覆盖能力可以达到35万条. 然而这是在上文中多个假设之下的理论值,事实上这个数字会小很多,因为姓氏分布并不均匀,而且张姓是大姓.

徐宾敢在领导面前说"两刻必有结果",这表明他们所使用的方法效率要高得多,并且经得住实际操作的考验. 而解决方法只有一个——进一步哈希.

这就不得了了,用人工来做这件事,简直可以称得上是"伟大的工程"了. 我国人民,就是厉害——从很久之前就这么厉害了——哈哈哈哈哈哈哈.