作为真无线耳机博主,尝试回答下这个问题,希望真正研究的算法工程师来补充下。
查阅了科普中国,源头信息北大信息技术学院头相关函数数据库,还有谷歌学术,甚至维基百科的一些内容,发现是10年前的学术研究论文,作为毕业多年本科生,读起来挺吃力的,但好歹也读完了。自己仔细揣摩了HRTF定义,还有不同研究就够的研究范畴,发现为了做好耳机的空间感,技术积累从1994年就已经开始了——我们现在习以为常的产品和技术,竟然是长达20-30年不断的积累。一切的核心—— 头相关传输函数HRTF,魔术一样影响我们听觉空间认知 。
先回归到物理世界,我们双耳是怎么定位的? [1]
声音借助空气传递到头部的耳朵外部时(注意是耳朵,还没通过耳道到达骨膜),如果不是正前正后方,一定会有两个变量:
图中所示:右耳先听到且声音大,左耳后听到且声音小。经过长期生活的训练,我们通过这些细微的差异,来判断声源的方向。
如果这么简单,那么声学也不至于被调侃为玄学?
从正前方和正后方放声音,按这种理论理论,我们应该分辨不出来,但实际正常人都能分辨出来。
问题出在哪里?
就是声音传递到耳道后,会被耳郭反射——反射后的声音,自带了位置信息,我们很容易判断出来。
最复杂声学问题,出现在这了——外界声音经过耳郭被「加密」了
耳郭这种反射是高度个性化的,每个人的形状深浅完全不同,且随着年龄还会变化,换句话说,我们 耳膜听到的声音,是被耳郭等各类反射后,进行了空间信息的「加密」,视为加密声 。
如果想 复现外部音源空间感,就必须在耳道内播放「加密后」的声音 。
而这个 外部声音经过耳郭之后加密的过程,可以抽象成为一个函数——头相关传输函数 (Head Related Transfer Functions,缩写:HRTF [2] )
头相关传输函数和哪些因素有关呢?
和声源距离,和声源仰角,声源水平角,和肩膀,和声音频率有关,甚至还和衣服,毛发,五官轮廓有关,等等等等
抽象成为一个数学函数和模型,就是这个:
PL,PR分别是简谐点声源在倾听者左、右耳产生的复数声压。Po是人头不存在时,头中心位置处的复数声压。
一般情况下HL,HR是声源的水平方位角θ、仰角Φ、声源到头中心的距离r以及声波的角频率Ω的函数
对于远场,即r>1.2 m的情况,HL,HR基本上与r无关
另外,由于不同人的头部、耳廓、躯干等的尺寸和形状不同,因而严格来说每个人的HRTF是不同的,也就是说HRTF是一个具有个性化特征的物理量。公式中a表示具有个性化特征的参量,如头部的尺寸
注意:头相关传输函数可以是,指任何自由场点声源与听众耳道指定位置之间的声学传递函数 [3] 。
我们假定是 加密后的声音2,这是自带了空间感的加密声音,被鼓膜听到后,大脑反向解密,勾勒出大致的位置和变化 [4] 。
用耳机播放耳道声音2
这时,如果能够获得 耳道声音2,用耳机直接来播放,不就是一样的效果么?
问题好像开始变得简单了,就是利用头部相关传输函数,获取外部声音在耳道不同位置加密后对应的声音,然后用耳机播放就行——看起来挺简单的。
举例来说,在一场真实的音乐会上,小提琴在听众的左边45°,钢琴在听众的右边45°,无论是小提琴的声音,还是钢琴的声音,都能够经过听众的头部进行加密过的。如果别人想通过耳机获得身临其境的体验,那么耳机内部的数字电路可以选择左边45°的头相关函数来加密小提琴的声音,右边45°的头相关函数加密钢琴的声音,这样就能够「欺骗」大脑,让耳机内的声音听起来也有很好的方向感和空间感。
可这不是数学,是函数模型!!
要大量的 声音结合大量的人群来测试,逐一验证各个变量和最终结果的关系,这才是最难的部分 。
而且耳道这个位置,又敏感又不安全。最完美的位置,应该是耳膜吧?可麦克风和耳机靠近耳膜,安全问题又难保证。
所以,从音源到获得加密后的耳道声音2,需要构建准确的头部相关函数,就需要大量的数据库,所以10年之前北大的研究是跨越性的—— 北大言语听觉研究中心发布了头部传递函数数据库 [5]
至此,理论层的研究打通,剩下的就是各个工程师努力要克服的研发和生产以及量产的问题了,我已经尽最大努力回答了这个问题,期望看到更好的其它回答。
后续是更为复杂和繁琐的产品,量产,商业问题等等,欢迎专业博主来回答。
补充下:
根据个人了解,不少品牌方将会陆续发布空间音频的产品,万魔也会在未来一段时间发布,甚至有更多品牌方告诉我今年的空间音频计划。
根据上游供应链的反馈,2022年将会是空间音频发力的元年,因为上游的产业链已经开始成型了,而且不少方案商已经开始推出稍微成熟的方案了。随着量产大批量的新品上市,入门级价位将会有越来越多的优秀产品出现。
而空间音频作为计算音频中最易感知的存在,第一步迈出去了,那么真无线耳机一直被吐槽的音质体验,大概率也会被头部相关函数通过计算音频的方式,提高到传统有线耳机几十年都达不到的程度。
但再往深层, 空间听觉通过头相关传输函数,被完美欺骗了,那么元宇宙,会不会是最终的的技术应用场景呢?
老规矩,求赞求关注。
结尾:原本想着随便回答下,没想到整理回答中,问题越挖掘越多。之前总是看到头相关传输函数HRTF,仔细看完,最难的其实是大量的数据获取,而且这些数据竟然和不同的确的人群有显著相关性。更是发现这竟然是研究了几十年的技术,到最近一两年才开始应用的 [6] 。
附整理过程中,辅助理解的手稿吧,给这个小众回答一个怀念——貌似现在还看这些内容的人,越来越少了。
参考
- ^ 科普中国 http://www.ioa.cas.cn/kxchb/kpzp/kpwz/202112/t20211222_6325395.html
- ^ 头相关函数详解 https://baike.baidu.com/item/头相关传输函数/21505397
- ^http://sjcj.nuaa.edu.cn/ch/reader/download_pdf_file.aspx?journal_id=sjcjycl&file_name=3618E016C89268EC90BDFA962A474893134547BFFDDFC5C9B639DF13F6AB8D730D9901E6ECFA220A6093646EF3D287C3D0FB752960125B22&open_type=self&file_no=20140203
- ^ 耳机到耳道传输函数测量的个性化头相关传输函数定制 http://120.209.85.3:8091/KCMS/detail/detail.aspx?filename=1014064930.nh&dbcode=CMFD&dbname=CMFD2015
- ^ 北京大学言语听觉研究中心发布了头相关传递函数数据库 https://eecs.pku.edu.cn/xxkxjsxy/info/1023/8157.htm
- ^ 发展历史 https://www.sohu.com/a/428705569_806909