【导读】TWS耳机正经历从简单音频设备到智能可穿戴计算机的转型。这些设备如今需要处理实时语音增强、环境降噪、语音识别、生物追踪等多重任务,而所有这些功能都需在严格的功耗预算和硬件限制下实现。现代TWS耳机的设计面临巨大挑战:端到端音频延迟需保持在4-10毫秒,始终监听功能必须以微瓦级功耗待机,片上SRAM容量紧张,闪存占用空间固定。解决这些挑战的关键不在于单一的神奇模型或更快的核心,而在于一系列创新压缩技术的综合应用。
通过稀疏性、量化和内存感知调度等压缩技术,TWS耳机在不大幅增加电池容量或使用更昂贵芯片的情况下,成功实现了多模型AI功能的集成与协作。
TWS耳机正经历从简单音频设备到智能可穿戴计算机的转型。这些设备如今需要处理实时语音增强、环境降噪、语音识别、生物追踪等多重任务,而所有这些功能都需在严格的功耗预算和硬件限制下实现。现代TWS耳机的设计面临巨大挑战:端到端音频延迟需保持在4-10毫秒,始终监听功能必须以微瓦级功耗待机,片上SRAM容量紧张,闪存占用空间固定。解决这些挑战的关键不在于单一的神奇模型或更快的核心,而在于一系列创新压缩技术的综合应用。
01 技术挑战:微型设备的AI化困境
TWS耳机集成AI功能面临多重约束。功耗限制是最主要的挑战,设备需要在不增大电池体积的情况下实现所有功能;计算资源有限,片上内存和存储空间极为紧张;实时性要求高,音频处理需要低延迟响应;成本压力大,不能使用过于昂贵的芯片解决方案。
这些约束条件使得传统的AI模型部署方式不可行。现代可听设备正在融合:TWS耳机增加了辅助聆听功能;助听器增加了连接性和更丰富的用户体验;高端耳机则向健康和健身领域迈进。典型的期望功能包括:用于通话和面对面降噪的实时语音增强、唤醒词加口语理解加语音ID实现免提控制和个性化、反馈消除和自适应均衡压缩及主动降噪、生物追踪与活动监测、运动追踪等。
02 压缩技术三重奏:稀疏性、量化和内存优化
量化技术通过降低数据精度来减少存储和计算需求。从32位浮点(float32)转为8位整数(INT8)权重可立即减少4倍存储量,并通过更窄的数据路径节省能耗。许多音频模型在使用逐通道缩放时,对INT8的耐受性强,质量影响极小。量化感知训练有助于进一步缩小量化与浮点性能之间的差距。
稀疏性技术通过消除不重要的连接来优化模型。修剪90%的权重可使参数存储量减少约10倍(这也能降低SRAM漏电),并且当硬件实际跳过零权重时,修剪层的乘加运算(MAC)可减少约10倍。
激活稀疏性利用语音的突发性特点。即使没有特殊的激活稀疏性损失函数,在流音频模型中也常观察到约50%-70%的稀疏激活(在更安静的环境中更高)。当硬件能够动态跳过零时,运行时MAC可减少2-3.33倍。
03 内存感知调度与架构优化
内存感知调度是另一项关键技术。通过精简模型、使用因果时间卷积网络(TCN)或小状态循环神经网络(RNN)模型实现低延迟流处理、融合操作符以减少SRAM的传递次数、利用激活重用、考虑内存层次结构进行分块等方法,可以显著优化内存使用效率。
对于多特征系统,共享前端(短时傅里叶变换/差分对数梅尔滤波器组)可以避免特征重复计算相同的缓冲区。这种优化策略能够显著降低内存占用和提高计算效率。
架构设计上,需要考虑流式友好和融合操作符。因果卷积、小状态RNN单元、对新兴网络(如状态空间模型(SSMs)和滑动窗口注意力)的未来-proof自定义操作符支持、突发友好的直接内存访问(DMA)和多种电源循环模式都是关键考虑因素。
04 实际应用与性能提升
压缩技术的实际效果令人印象深刻。考虑一个实时时间卷积循环神经网络(TCRNN)语音增强模型。在密集状态下,它有约600万个参数,浮点精度下约24兆字节。使用INT8后,降至约6兆字节。结合90%的权重稀疏性,权重仅需约600千字节;加上约100千字节的激活缓冲区(重用时总计约700千字节)。
这一占用空间足够小,可与其他功能共存。例如,在1兆字节的SRAM空间中,可预留约300千字节用于唤醒词加SLU路径(如通过适度稀疏性和INT8将约500千字节的基线压缩至约100千字节),还剩约200千字节用于语音ID嵌入、声音事件检测器、反馈消除器或IMU活动分类模型。
稀疏性在功耗和延迟方面也真正发挥了优势:去噪器以约1.2毫瓦运行时延迟为8毫秒,以约2.1毫瓦运行时延迟为4毫秒。对于100毫安时的电池,这为无线电以及其他功能和传感器留出了充足预算。
05 硬件创新与专用芯片
专用芯片的出现进一步推动了TWS耳机的AI化进程。例如,FemtoAI的SPU-001处理器拥有1兆字节SRAM,在90%稀疏性下等效内存为10兆字节。采用22纳米理想节点,面积3.4平方毫米。它支持上述技术,并将稀疏性作为核心特性。
存算一体技术是另一个有前景的方向。知存科技自主研发的存算一体SoC芯片WTM2101已于2022年初正式量产,这是国际上量产的首个存算一体SoC芯片。存算一体基于欧姆定律,矩阵乘法效率提高50-100倍,对于穿戴设备来说,提供了能在低功耗下运行很大算力的AI算法。
采用存算一体芯片的可穿戴设备可以提供大算力,传统芯片的功耗在50mA到100mA之间,但是存算一体可以把功耗降低到1mA。这种技术特别适合实时声音处理,如声音增强、通话降噪、声音美化、人声增强等AI算法。
06 实际应用案例与市场动态
业界领先企业已经开始应用这些技术。WISHEE AI耳机融合了DeepSeek R1深度思考模型,采用多模型协作机制,根据用户问题的类型和需求,AI Agent会智能拆分子任务,并匹配最适合的模型进行处理。
小米在2025年推出的Xiaomi Buds 5 Pro系列采用了行业罕见的双功放三单元声学系统,结合11mm内外双磁动圈、压电陶瓷单元和振膜技术,实现了15-50KHz的超宽频响应。在算法方面,小米团队与哈曼金耳朵大师合作,采用"哈曼大师"调音方案,结合深度学习算法,实现了旗舰级的空间音频体验。
2025年9月,立讯精密与美国边缘人工智能芯片企业PIMIC达成战略合作,双方将基于PIMIC的边缘AI芯片技术,共同开发新一代智能可穿戴产品。这项联合技术将很快应用于无线耳机、AI/AR眼镜及AIoT设备等可穿戴产品。
FemtoAI 的 SPU-001 芯片
07 实施建议与最佳实践
实施AI功能时,门控调度是一个实用模式。始终保持超低功耗监听器(唤醒词、瞬态/语音活动)运行,这是最小、最省电的模型(包括前端约200微瓦)。触发后,仅在需要时启动较重的任务(SLU、上下文更新),然后将其转入SRAM保留模式。
共享功能并统一前端也很重要。去噪器的声学特征也可用于环境分类或语音ID。从每个应用中提取所需的最高分辨率快速傅里叶变换(FFT)(可能是语音增强或声源分离),并为低复杂度任务融合FFT bins,避免重复计算前端。
对于生物和活动追踪,应依靠压缩性好的紧凑时间模型(TCNs/RNNs);积极下采样和压缩时间窗口。在采样时采用占空比(心率和体温无需24/7追踪);当出现较大变化或用户打开配对的健康/健身应用以获取更高精度时,提高采样率。
结语
TWS耳机的AI化转型正在通过稀疏性、量化和内存感知调度等压缩技术取得突破性进展。这些技术使多个小模型能够实时共存与协作,在不增大电池或使用更昂贵芯片的情况下实现丰富功能。随着专用芯片和存算一体架构的发展,以及业界对压缩技术的深入理解,TWS耳机将真正转变为智能可穿戴计算机,为用户提供更加丰富和便捷的体验。
推荐阅读: