本文由RealMega Micro Tech.(昱兆微电子科技)授权我爱音频网转发,仅供学习交流使用:

席卷全球的新冠病毒大流行正在让全世界付出惨痛的代价,并将深刻改变人类生产和生活方式。甚至有分析认为,这场全球疫情将成为世界历史发展的一个分水岭,并改写全球化的规则和内容。这场危机之后,人类社会将如何发展?

让我们对比一下102年前爆发的西班牙大流感,那场瘟疫持续两年多时间,造成全球至少2500万人死亡。尽管惨烈程度比今天的新冠肺炎严重上百倍,人类在那之后迄今100年内,依然加速并持续蓬勃发展。

毫无疑问,当下的疫情对中国和全球经济社会的影响只是暂时的,并非永久性的。观察科技在抗疫中的应用,可以预见:疫后的数字化、无线化生存的深度和广度将进一步提升。这场疫情危机将更快推动数字化升级,加速物联网、人工智能、虚拟现实的创新和应用。

蓝牙无疑是物联网领域的重要组成,语音是人工智能的重要分支。笔者的公司RealMega Micro Tech.(昱兆微电子科技(上海)有限公司)有一群在蓝牙以及语音芯片领域默默耕耘近二十年的专家,不妨一起深入探讨下蓝牙音频芯片的未来。

一、蓝牙音频的市场趋势

自蓝牙成为手机标配后,音频一直是蓝牙最大的应用市场,而2016年9月Airpods的推出,TWS(真无线)蓝牙耳机成为蓝牙音频的最大应用焦点。从去年到现在,TWS耳机芯片的各种好消息层出不穷。

其一,国产TWS蓝牙耳机芯片大爆发,去年出货的TWS蓝牙芯片超过6亿只。

其二,苹果在去年底发布的Airpods Pro,提供最高将近30dB 的音频主动降噪效果,受到市场强烈欢迎。

其三,蓝牙技术联盟(SIG)在今年一月推出了最新版本的蓝牙5.2,并发布了下一代蓝牙音频–LE音频(低功耗音频)。此事件标志了经典蓝牙音频在过去20年垄断地位的结束,拉开激动人心的下一个20年蓝牙音频的序幕。

蓝牙5.2核心规范引入了三个主要特性,分别是:同步通道(Isochronous Channels,ISOC)、LE功率控制(LEPC)、和增强属性协议(EATT)。

同步通道(ISOC)是在BLE设备中实施 LE音频的基础。LEPC和EATT虽然与LE音频没有直接关系,但是可以帮助LE音频设备减小功耗、缩小体积、减少延时。主要用于支持下一代蓝牙音频—LE音频,它突破了原来一对一的限制,变成一对多和多对一的模式。

同步通道(ISOC)允许将有时间限制的数据与一个或多个设备通信,以便进行时间同步处理。比如:左右耳塞同步播放音乐、个人音频共享、或大型公共场所(如电影院)数量不限的设备同步播放。尽管TWS耳机已经很火,但从长远来看,这个行业才刚刚开始,如同当年的功能手机向智能手机的转变,未来会有极大的市场前景。

除了这些新的应用,LE音频将为助听器提供新的标准,并支持不同地点的辅助听力系统,如剧院、会议、演讲厅和机场。由于ISOC和新的音频配置文件,预计多语言蓝牙音频系统将成为现实。毫无疑问,LE Audio将会成为蓝牙音频未来的新赛道。

根据ABI Research今年最新发布的预测数据,蓝牙音频芯片在未来5年的复合增长率保持在7%,到2024年,蓝牙音频娱乐设备的年度出货量将接近20亿台,包括各种蓝牙耳机、音箱、蓝牙助听器、蓝牙音频共享设备。

其中,经典蓝牙音频的占比将低于5%,双模音频的占比60%,LE单模音频的占比超过35%。根据该研究报告同时预测,到2024年,38%的出货量由TWS蓝牙耳机贡献,即TWS蓝牙芯片年度出货量为7.6亿片。

但是,ABI的这份研究报告,似乎并没有考虑白牌TWS耳机的出货量。

对比2019年的数据,很多市场研究机构给出的TWS耳机出货量为1.2亿副(其中,苹果出货6000万副),即2.4亿只。这个数据比已知的国产TWS耳机芯片出货量起码少了3.6亿只。如果按照等比例推算,到2024年,TWS蓝牙耳机芯片的出货量将达到19亿片。有些业内人士甚至预测,明年就能达到这个数量。

另外,由于降噪(ANC)功能为TWS耳机带来了质的飞跃,市场极度渴望降噪效果明显、价格适中的TWS耳机。尽管现在降噪TWS耳机的出货量不到整个市场的5%,一旦有适合批量生产的高直通率的降噪蓝牙芯片,市场可能会改变这一状况,甚至后期会倒过来:大部分TWS带ANC,小部分TWS不带ANC。

二、TWS耳机的技术趋势

通过分析各种消费者的评测,对TWS耳机普遍希望在以下几点得到改善:
1、可靠连接:两耳耗电更平衡;信号强、连线更稳定,减少断音、跳音;低延时;适配多种手机。
2、超低功耗,更长电池续航时间。
3、高音质:高解析音频码流;通话清晰;更多音效处理,如震撼低音、3D音效、多频段均衡等等。
4、降噪:主动降噪(ANC);通话环境噪音消除
5、控制和感知语音控制/智能控制;语音生物识别;场景识别。

接下来看看,哪些技术可以较好地解决上述问题?我们认为,那些性价比最高的技术方案将成为今后的发展趋势。

经典蓝牙是单通道无线协议,无法同时提供多个声道。为了规避这一难题,以苹果公司为代表的厂家纷纷推出自己的私有方案。私有方案主要分为三大类:侦听、转发、私有双声道蓝牙协议。不论哪一种私有方案,都无法完美解决上文提到的所有连接问题。

TWS耳机的火热和技术上的缺陷,让业界对下一代蓝牙音频期待已久。蓝牙技术联盟不负众望,在几个月前发布了众所瞩目的LE音频,受到业界的广泛关注和跟进。

从今年起,蓝牙拥有了两种音频标准:经典音频和LE音频。

LE音频除了依赖底层的蓝牙5.2核心规范,还依赖于高层的配置文件、通用音频框架(GAF),和全新的低复杂性编解码器(LC3 CODEC)。不过,尽管SIG已经公布新的标准,但LE 音频的通用音频框架(GAF)和配置文件尚需核准,预计今年晚些时候可以获批。

如前文所述,蓝牙5.2的ISOC为LE音频垫定了基础,蓝牙低功耗(BLE)和LEPC为LE音频的低功耗提供了保障,EATT降低了端到端的延时。

ISOC可用于所有速率模式:1M/2M/500k/125k。它既支持面向连接,又支持无连接的通信,分别对应BLE的连接和广播。

面向连接的每个流称为连接同步流(CIS)。当 CIS 需要同步时(比如发送到左耳塞和右耳塞),它们就成为了同步组(CIG)的一部分。一个CIG最多包含31个CIS。属于同一 CIG 的数据流共享同一个参考时序,这是让多个接收器同时呈现数据的必要条件。

CIG 允许双向数据传输,例如:手机发送同步数据流给左右耳塞,耳塞也可以同步发送控制信号和麦克风信号给手机。

与 ISOC 相关的重要参数是 ISO间隔。它定义CIS事件和CIG事件发生的时间间隔。属于相同CIG的CIS具有相同的ISO间隔。ISO间隔范围从 5 毫秒到 4 秒,且必须是1.25毫秒的整倍数。每个CIS事件又可以拆分为一个或者多个子事件。在面向连接的通信中,在每个子事件中,主设备向从设备发送一个数据包,从设备收到后将发送一个数据包予以响应。

假设一个CIG包含两个CIS(左右耳声道),一个CIS事件包含2个子事件,而且CIG内的CIS是按顺序发送,那么下图反应了这种情况下CIG事件、CIS事件、CIS子事件、ISO间隔的相互关系:

ISOC支持数据重传,对于连接同步流(CIS),当从设备没有应答时,主设备才发送重传数据。重传的数据包与原始数据包的通道不同,从而减少数据包丢失或损坏的风险。

LE音频还引入了一种新的高质量低功耗音频编解码器,称为低复杂性通信编解码(LC3)。采样率支持8/16/24/32/44.1/48kHz,比特率支持16-320kbps。LC3具有在低数据速率条件下也能提供高音质的特性,比如,即使数据速率低于经典蓝牙使用的SBC 编解码器所要求的标准速率,LC3也能提供高质量的音频。相比经典蓝牙音频采用的SBC,LC3的音质可以提升50%。该特性可以帮助产品更好地在音质和功耗之间进行权衡。

总结起来,LE音频为最终用户带来如下好处:
1、鲁棒性更好、连线更稳定
2、超低功耗,更长电池时间,两耳耗电完全平衡
3、低延时
4、适配所有蓝牙5.2手机和电脑
5、更高音质

由此可见,不论是双模还是单模音频,我们预测LE音频将成为未来TWS耳机的标配。

下面是SIG为蓝牙5.2和LE Audio设立的时间表,以供参考:3~12个月推出开发工具、SDK。9~18个月推出方案和PCBA、Ear buds、助听器、耳机。12~24个月推出手机、平板、电视、电脑。18~36个月推到公共场所进行广播。

关于控制和感知,可以通过加入超低功耗的边沿计算和更丰富的传感器来实现,限于篇幅,笔者将另行撰文探讨。

关于主动降噪(ANC)问题, 其重要性不言而喻。它可以保护听力、在通话过程中增进理解、增加聆听的舒适度,还可以缓解压力。

自从Airpods Pro树立了降噪TWS耳机的标杆以来,几乎所有的品牌耳机企业和白牌企业都在模仿和追赶。下面我们专门来探讨ANC的技术方案。

三、主动降噪(ANC)的技术方案

1、ANC的工作原理

在非常小巧的TWS耳机中加入降噪功能,是目前音频厂商共同面对的难题,今天我们来就来针对性的聊聊TWS耳机降噪技术是如何实现的。

主动降噪(ANC)技术是现代耳机行业的主要技术。虽然它仍然是一个高端的功能,但它不再为最昂贵的耳机所独享。

事实上,设计和实现 ANC 技术的方法有很多种。其中每一个都影响耳机消除噪音的质量。我们将解释这些方法之间的差异。

简单来说,主动降噪(ANC)基于声波相位抵消的原理。相位差为 180 度的波(如声波)或相互反转的波叠加在一起时,相互抵消。类似于-1 加到 1,结果为零。

消除噪声的思路是,记录背景噪声,再反转噪声信号以创建”反相噪声”,然后将其添加到输出信号中。在噪声信号在到达耳朵时,反相噪声也刚好到达,从而消除实际的背景噪音。

图:声波相位消除原理图

这个想法确实非常简单,可以追溯到上个世纪30年代,但它实现起来却非常困难。

ANC最大问题是如何足够准确地捕获背景声音,并同步提供最大衰减量。麦克风具有不完善的频率响应、声电转换会引入自己的噪声,而用于消噪的反相声波使扬声器在到达耳朵时可能无法完全与噪声相位刚好相反。

针对这些问题,系统需要仔细计算和调整,但即使如此,也不会看到100% 抵消。不过,-20dB到 -30dB之间的降噪在高端耳机还是较为常见,这将背景噪音减少到原来的从 1/10到1/32,还是很可观的。

要考虑的另一个关键点是,耳机内部和外部听到的噪音非常不同。声音捕获的这种差异将影响主动降噪耳机的质量和功能。

这就引出了这样一个问题:最好将麦克风安装在什么位置以捕获噪音?在耳机外面、里面、或者二者兼顾?

1.1、前馈 ANC(FF ANC)

前馈 ANC 相对来说是更简单的主动噪声消除类型的技术。使用前馈技术时,用于捕获噪声的麦克风放在耳机外侧。

图:前馈 ANC(FF ANC)示意

前馈ANC使用数字信号处理器(DSP)其他专用ANC处理单元将噪声信号映射到用户在耳机内部实际听到的频率响应。通过理论分析和产品测试,确保正确应用此映射以满足最大噪声消除的要求。但是,这不如在耳机内放置麦克风那样准确,而且外部麦克风对噪音源的方向比较敏感,不同方向的噪音可能会造成不一样的降噪效果。

此外,降噪性能在不同的佩戴者之间会有不同的效果。例如,松散的配合可能会导致用户音频泄露到外部麦克风,导致处理器误把用户音频当成噪音处理。也可能把外部麦克风没有捕获的噪音泄露到耳机内部,从而无法消噪。

1.2、反馈 ANC (FB ANC)

反馈 ANC 与前馈相反,麦克风放置在耳机内。虽然在耳机内侧选择正确的位置会带来一系列新的困难,但其主要优点是麦克风捕获的噪音更准确地反映佩戴者听到的噪音,而不管耳机的确切位置和贴合度如何。这也使耳机更容易消除风噪。

图: 反馈 ANC (FB ANC)示意

除了噪音,用户音频也会被内部麦克风捕获,因此,在产生反相噪音之前,需要过滤掉用户音频,由此校准过的信号,才能用于产生反相噪音。

与所有反馈系统一样,存在失控放大的风险。这需要方案采取足够的预防措施。反馈ANC的处理时间也更少,因为它正在处理已经非常接近耳膜的音频。

1.3、混合ANC

混合ANC 结合了FF和FB二者的优点,它将获得最佳的噪声衰减频率覆盖率,并弱化了FF和FB ANC的缺点。

图:混合ANC示意

混合 ANC的缺点是系统更复杂、成本更高。不仅有两个麦克风,而且这些麦克风需要很高的质量,以避免引入额外的噪音。耳机还需要更强大的专用处理硬件来处理额外的运算。但它们确实可以提供更优的ANC。

2、降噪条件分析

前文提到,要使降噪效果最好,必须使反相噪音和环境噪音的刚好同步叠加,因此,要求反相信号不能晚于噪音到达用户的耳朵。如果反相信号提前到达用户耳朵的话,则系统可以主动调节,以便使二者同步,达到消噪的目的。

因此,系统处理声音的速度就显得很重要,速度越快,系统就越能从容处理噪音。
下图中Tsound是指声音从外部麦克风到扬声器之间的传播时间。声音处理时间包括声音信号在各个环节消耗的时间之和。这些环节包括:麦克风把声音转为电信号的过程、ADC(模数转换)[如果有的话]、声学计算、DAC(数模转换)[如果有的话]、PA(功率放大器)、扬声器。

已知声音在空气中的传播速度为340m/s,如果外部麦克风到扬声器的距离是3mm,那么它的传播时间为88us。此时,声音消耗在所有环节消耗的时间之和必须小于88us。

图:降噪条件分析

由于声音在塑料、金属等固体中的传播速度比在空气中的速度快得多,实际上,外部噪音从麦克风传播到扬声器的时间比上面计算的结果要更少。可见,整个系统对声音的处理时间要足够小。

3、ANC的挑战和应对

元器件的机械参数和电气参数必然存在公差,组装生产过程也会引入公差,尽管这些公差很小,但是很容易引起微秒级别的误差。

从前文的分析结果看到,微秒级的误差就足以让让反相噪音和真实噪音失去同步,从而降低减噪效果。因此,如何保证产品的性能的一致和稳定可靠,成为降噪TWS耳机的一大挑战。

另外,如前文提到,麦克风、ADC、DAC(如果有的话)、扬声器都会引入噪音和产生失真,在抑制环境噪音的同时,尽量减少系统自身引入的噪音和失真,也是挑战。

那么,针对这些挑战,如何应对呢?

从耳机产品的角度来看,需要在以下几个方面加以考虑:

首先,选择专业的、最新的ANC芯片,或者选择集成了专业ANC功能的SoC(或SiP)。这些芯片的THD+N(总谐波失真+噪声)与DNR(动态范围)足够高,在保证音质的前提下,还能让最终的成品达到40dB的降噪目效果。另外,这些专业ANC处理器的处理时间足够快。从模拟信号输入到模拟信号输出(A2A)的时间可以控制在5us左右,可以留出更多的时间作为麦克风和扬声器的响应时间。

其次,麦克风和扬声器除了频率响应范围宽以及失真小,它们的声电转换时间的公差也要足够小,从而允许系统可以针对不同的噪音传播时间进行适应性调节。

第三,主控芯片必须能提供自适应的校准算法。耳机零部件和组装生产一定会存在一定的误差,只要这些误差能够控制在校准算法控制的公差范围内,就能够实现自动校准,从而提高生产直通率。

最后,音腔设计、模具加工、时钟设计、电路设计、PCBA、组装生产都需要针对性地进行优化。

四、下一代蓝牙音频芯片展望

TWS耳机将是LE音频的最大细分市场之一,那么,什么样的蓝牙音频芯片可以满足未来TWS耳机市场的需要呢?回顾前面的市场趋势、技术趋势、以及ANC的技术分析,我们认为下一代蓝牙音频芯片应该具有如下功能特性。

首先,不仅要支持经典蓝牙的TWS传输模式,还要支持蓝牙5.2核心规范和LE Audio。

充分利用这些标准,不仅需要和目前的手机实现兼容,还可以实现更低功耗,延长电池续航时间,减少时延,并且充分平衡双耳的耗电。LC3可以提供比经典蓝牙语音更好的音乐品质。

当然,芯片厂商也可以额外提供更多的音频编解码器,为消费者提供更多更好的听觉体验选择。随着越来越多的平台设备(手机、平板、电脑)支持LE Audio,支持LE Audio的耳机可以让消费者在广泛的平台设备上自由使用。

其次,超低功耗下稳定可靠的无线连接,是消费者享受音乐和清晰通话的基本保障。

RealMega核心团队在射频芯片领域有20年的丰富产品经验,在射频性能、各种工作模式下的功耗控制,以及在先进制程工艺下缩小芯片面积等领域,具有强大的优势。团队设计开发过的射频芯片产品,曾经或正在数十亿颗芯片上默默传递数据,这是对我们潜心钻研的工匠精神的最大肯定,也激励我们开发出更好的下一代蓝牙射频。

第三,无缝支持专业的ANC技术。

不论是入耳式,还是半入耳式,专业的ANC技术或芯片可以保证20~40dB的降噪效果,并且提供高保真音质。此外,还能针对不同噪声场景适配最合适的降噪效果。无缝支持这些专业芯片,可以给消费者提供多种价位的灵活选择:低配ANC、高配ANC等等。一旦消费者选择带ANC的产品,他们可以得到性价比最高的、世界级的降噪效果。

第四、支持低功耗、灵活且强大的处理器架构。

配合适当的软件,可以让芯片提供强大边沿计算能力,以支持语音离线识别、语音在线识别、语音唤醒等各种AI应用,满足不同智能语音生态系统的需求,并且可以随时升级。假如配合适当的传感器,则可以提供更人性、更自然的交互体验,为消费者提供不同应用场景下的最佳产品。

第五、提供自适应降噪功能和自动化的校准算法。

回望蓝牙20年的历史,无数事实证明,顺应潮流的技术变革总是伴随着巨大的新机会。经典蓝牙独自垄断音频20年的历史结束了,LE音频即将开启蓝牙音频的下一个新时代。