耳机中的「空间感」是如何实现的？

2022-07-25数码

作为真无线耳机博主，尝试回答下这个问题，希望真正研究的算法工程师来补充下。

查阅了科普中国，源头信息北大信息技术学院头相关函数数据库，还有谷歌学术，甚至维基百科的一些内容，发现是10年前的学术研究论文，作为毕业多年本科生，读起来挺吃力的，但好歹也读完了。自己仔细揣摩了HRTF定义，还有不同研究就够的研究范畴，发现为了做好耳机的空间感，技术积累从1994年就已经开始了——我们现在习以为常的产品和技术，竟然是长达20-30年不断的积累。

一切的核心—— 头相关传输函数HRTF，魔术一样影响我们听觉空间认知 。

先回归到物理世界，我们双耳是怎么定位的？ ^[1]

声音借助空气传递到头部的耳朵外部时（注意是耳朵，还没通过耳道到达骨膜），如果不是正前正后方，一定会有两个变量：

时间差 ——两个耳朵听到声音是先后顺序

能量差 ——两个耳朵听到声音大小的差别

图中所示：右耳先听到且声音大，左耳后听到且声音小。经过长期生活的训练，我们通过这些细微的差异，来判断声源的方向。

如果这么简单，那么声学也不至于被调侃为玄学？

从正前方和正后方放声音，按这种理论理论，我们应该分辨不出来，但实际正常人都能分辨出来。

问题出在哪里？

就是声音传递到耳道后，会被耳郭反射——反射后的声音，自带了位置信息，我们很容易判断出来。

最复杂声学问题，出现在这了——外界声音经过耳郭被「加密」了

耳郭这种反射是高度个性化的，每个人的形状深浅完全不同，且随着年龄还会变化，换句话说，我们 耳膜听到的声音，是被耳郭等各类反射后，进行了空间信息的「加密」，视为加密声 。

如果想 复现外部音源空间感，就必须在耳道内播放「加密后」的声音 。

而这个 外部声音经过耳郭之后加密的过程，可以抽象成为一个函数——头相关传输函数 （Head Related Transfer Functions，缩写：HRTF ^[2] ）

头相关传输函数和哪些因素有关呢？

和声源距离，和声源仰角，声源水平角，和肩膀，和声音频率有关，甚至还和衣服，毛发，五官轮廓有关，等等等等

抽象成为一个数学函数和模型，就是这个：

PL，PR分别是简谐点声源在倾听者左、右耳产生的复数声压。
Po是人头不存在时，头中心位置处的复数声压。
一般情况下HL，HR是声源的水平方位角θ、仰角Φ、声源到头中心的距离r以及声波的角频率Ω的函数
对于远场，即r>1．2 m的情况，HL，HR基本上与r无关
另外，由于不同人的头部、耳廓、躯干等的尺寸和形状不同，因而严格来说每个人的HRTF是不同的，也就是说HRTF是一个具有个性化特征的物理量。公式中a表示具有个性化特征的参量，如头部的尺寸

注意：头相关传输函数可以是，指任何自由场点声源与听众耳道指定位置之间的声学传递函数 ^[3] 。

我们假定是 加密后的声音2，这是自带了空间感的加密声音，被鼓膜听到后，大脑反向解密，勾勒出大致的位置和变化 ^[4] 。

用耳机播放耳道声音2

这时，如果能够获得 耳道声音2，用耳机直接来播放，不就是一样的效果么？

问题好像开始变得简单了，就是利用头部相关传输函数，获取外部声音在耳道不同位置加密后对应的声音，然后用耳机播放就行——看起来挺简单的。

举例来说，在一场真实的音乐会上，小提琴在听众的左边45°，钢琴在听众的右边45°，无论是小提琴的声音，还是钢琴的声音，都能够经过听众的头部进行加密过的。
如果别人想通过耳机获得身临其境的体验，那么耳机内部的数字电路可以选择左边45°的头相关函数来加密小提琴的声音，右边45°的头相关函数加密钢琴的声音，这样就能够「欺骗」大脑，让耳机内的声音听起来也有很好的方向感和空间感。

可这不是数学，是函数模型！！

要大量的 声音结合大量的人群来测试，逐一验证各个变量和最终结果的关系，这才是最难的部分 。

而且耳道这个位置，又敏感又不安全。最完美的位置，应该是耳膜吧？可麦克风和耳机靠近耳膜，安全问题又难保证。

所以，从音源到获得加密后的耳道声音2，需要构建准确的头部相关函数，就需要大量的数据库，所以10年之前北大的研究是跨越性的—— 北大言语听觉研究中心发布了头部传递函数数据库 ^[5]

北大官网

至此，理论层的研究打通，剩下的就是各个工程师努力要克服的研发和生产以及量产的问题了，我已经尽最大努力回答了这个问题，期望看到更好的其它回答。

后续是更为复杂和繁琐的产品，量产，商业问题等等，欢迎专业博主来回答。

补充下：

根据个人了解，不少品牌方将会陆续发布空间音频的产品，万魔也会在未来一段时间发布，甚至有更多品牌方告诉我今年的空间音频计划。

根据上游供应链的反馈，2022年将会是空间音频发力的元年，因为上游的产业链已经开始成型了，而且不少方案商已经开始推出稍微成熟的方案了。随着量产大批量的新品上市，入门级价位将会有越来越多的优秀产品出现。

而空间音频作为计算音频中最易感知的存在，第一步迈出去了，那么真无线耳机一直被吐槽的音质体验，大概率也会被头部相关函数通过计算音频的方式，提高到传统有线耳机几十年都达不到的程度。

但再往深层， 空间听觉通过头相关传输函数，被完美欺骗了，那么元宇宙，会不会是最终的的技术应用场景呢？

老规矩，求赞求关注。

结尾：原本想着随便回答下，没想到整理回答中，问题越挖掘越多。之前总是看到头相关传输函数HRTF，仔细看完，最难的其实是大量的数据获取，而且这些数据竟然和不同的确的人群有显著相关性。更是发现这竟然是研究了几十年的技术，到最近一两年才开始应用的 ^[6] 。

附整理过程中，辅助理解的手稿吧，给这个小众回答一个怀念——貌似现在还看这些内容的人，越来越少了。

开始回答的时候，没想这么长

参考

^ 科普中国 http://www.ioa.cas.cn/kxchb/kpzp/kpwz/202112/t20211222_6325395.html
^ 头相关函数详解 https://baike.baidu.com/item/头相关传输函数/21505397
^http://sjcj.nuaa.edu.cn/ch/reader/download_pdf_file.aspx?journal_id=sjcjycl&file_name=3618E016C89268EC90BDFA962A474893134547BFFDDFC5C9B639DF13F6AB8D730D9901E6ECFA220A6093646EF3D287C3D0FB752960125B22&open_type=self&file_no=20140203
^ 耳机到耳道传输函数测量的个性化头相关传输函数定制 http://120.209.85.3:8091/KCMS/detail/detail.aspx?filename=1014064930.nh&dbcode=CMFD&dbname=CMFD2015
^ 北京大学言语听觉研究中心发布了头相关传递函数数据库 https://eecs.pku.edu.cn/xxkxjsxy/info/1023/8157.htm
^ 发展历史 https://www.sohu.com/a/428705569_806909