你的位置:首页 > 互连技术 > 正文

炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键

发布时间:2023-11-29 责任编辑:lina

【导读】声音是人与人交户的重要手段,在AI兴起的现今,也是人与机器相互沟通的手段之一。从模拟阶段的留声机开始到现在,人类对于高清化、高保真的追求一刻没有停歇过,也逐渐摆脱了线束的约束。对音频来说,芯片至关重要,它既要拥有足够的算力,也要拥有足够低的功耗。


著名作家海伦·凯勒曾说过这样一句话,“盲隔绝了人与物,聋隔绝了人与人。”可见听力的重要性,由此可以看出,人的一生耳朵是最忙的感知系统之一。


声音是人与人交户的重要手段,在AI兴起的现今,也是人与机器相互沟通的手段之一。从模拟阶段的留声机开始到现在,人类对于高清化、高保真的追求一刻没有停歇过,也逐渐摆脱了线束的约束。对音频来说,芯片至关重要,它既要拥有足够的算力,也要拥有足够低的功耗。


据SIG预测,到2027年蓝牙音频传输设备年出货量将达18.4亿台,2023年~2027年的年复合增长率为6%,蓝牙数据传输设备年度出货量将达到18.7亿台,2023年~2027年的复合年增长率为11%。


ICCAD 2023上,炬芯科技股份有限公司董事长兼CEO周正宇博士博士分享了炬芯在AI大背景下,如何为音频芯片提供更多创新。


20多年专注音频领域


“炬芯的前身就是原来的炬力集成,我们在行业中做了20多年音频,2005年炬力集成基于便携式音频在美国上市,2021年炬芯基于蓝牙音频在科创板上市。”周正宇博士这样介绍道。


炬芯2023年半年报和官网显示,其核心产品包括蓝牙音频SoC芯片、端侧AI处理器芯片、便携式音视频SoC芯片三类。


蓝牙音频 SoC 芯片系列主要应用于蓝牙音箱(含TWS音箱、智能蓝牙音箱)、Soundbar、智能手表、蓝牙耳机(含TWS耳机、开放式OWS耳机)、无线电竞耳机等。


炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键


端侧AI处理器芯片系列是基于端侧的带有人工智能加速器的 系统级音频处理器,致力于提供智能物联网AIoT端侧低功耗算力的芯片平台,也是炬芯主营的音频产品和人工智能技术的重要结合点,可满足市场未来日新月异的低功耗端侧设备的人工智能应用需求。


炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键


便携式音视频SoC芯片系列是炬芯最早耕耘的、最成熟的产品线,全球市场占有率长期较高,搭载了公司长期积累的、较先进的低功耗音视频处理技术。该系列芯片主要针对便携式高品质音视频编解码类产品的应用。


炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键


具体从市场来看,炬芯在中高端品牌蓝牙音箱市场份额明显增长,下一步会通过产品持续迭代升级和优化产品组合继续提升在中高端品牌的渗透率;低延迟高音质市场从有线连接向无线连接转换的趋势,带来了存量市场转化和新增需求两个机会,炬芯正在持续加大研发投入保持技术领先优势并与各大品牌厂商继续保持紧密合作以把握这一波市场转型机会;此外,在智能手表市场,炬芯对中国、欧美和印度市场做了均衡的布局和节奏把握,智能手表作为贴合人体重要的健康数据监测产品,将持续深耕。


用存内计算创造更大算力和更低功耗


周正宇博士表示,过去以来,炬芯的芯片架构一般都是“CPU+DSP”的双核架构,未来,AI时代,炬芯会在CPU和DSP的基础上,从高端音频芯片入手,整合低功耗 AI 加速引擎,逐步全面升级为 CPU+DSP+NPU(based MMSCIM)三核异构的AI SoC架构,为便携式产品提供更大的算力。,最新一代基于MMSCIM的高端AI音频芯片ATS286X,将会在明年将会Sample。


“算力和功耗是一对矛盾统一体。”周正宇博士认为,如何在同样的制程、同样的架构、同样的设计下,创造更大算力和更低功耗是AI时代的关键。


比如说,TWS耳机电池容量通常在35m~40mAh,典型平均工作电流约在5mA左右,也就是说,留给芯片的功耗预算只有20mA左右。再比如,智能手表典型电池容量在280~300mAh,典型工作电流在3mA上下,也就是说在4.3V锂电池中,只有15mA左右的功耗,还包括ADC、DAC等器件,也就是说留给蓝牙音频芯片功耗只有10mW。


与之相悖的是,AI驱动下,未来算力需求越来越大,也就是说,对蓝牙音频芯片商来说,要在10mW的功耗预算下,打造200~500GOPS算力是很大难题。


AI主要以复杂矩阵运算来形成,而复杂的矩阵运算最主要的算力功耗都来自于乘累加运算,过去芯片普遍采用DSP处理音频,突破的关键就在于突破冯诺范式的存储墙和功耗墙,即存内计算,通俗解释就是把计算和存储放在一个房间里去,让它们零距离沟通。


存内计算拥有许多不同介质,到底哪一种介质适合做存内计算?周正宇博士认为各个介质均有其特点,不论哪种路径,最主要的问题就是写入次数,假若AI需要做自适应或模型不断更新,那么它在写入多次之后就会报废,所以这种介质不适合做自适应应用,类似于Transformer这一类拥有自学能力的模型。


对比来看,SRAM读写速度快,拥有无限次读写能力,不仅采用标准工艺制造,还可以集成在SoC内,但它的弱点是存储密度低。不过,虽然如此,SRAM依旧是低功耗AI算力的首选。一方面,音频只需要200~500GOPS的算力,而非几十TOPS,密度低的缺陷因此而被规避,另一方面,标准的CMOS工艺不仅可以现在就能大规模量产,还可以集成在单芯片上跟随制程工艺演进到2nm。加之无限次写入,可以支持自适应计算,长远来看,RL(强化学习)和ML(机器学习)可能也会为它带来更多惊喜。


存内计算也拥有模拟和数模混合两个技术路径,它们最大的差异主要在于运算用ADC+模拟电路实现的,还是基于数字电路实现。


炬芯科技选择的是模数混合的存内计算,暂时命名为“Mixed-Mode SRAM based CIM”,简称MMSCIM,其优势是精度无限,可靠性和量产的一致性非常高,容易在制程上升级,容易提升速度或PPA。


目前,该芯片虽然还没有进入量产阶段,但进展非常快。它在全矩阵运算情况下,未来22nm就有望达到每瓦7.8TOPS的能效比。值得一提的是,在12nm情况下,它就已经接近50TOPS,足以挑战在10mW范围内释放200~500GOPS算力。


炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键


边缘与AI融合,挑战与机遇并存


在周正宇博士看来,未来端侧也会实现像ChatGPT、Tranformoer或类似的功能,或许是手机,或者是手表,未来这些能力都能被人所触及。就比如说,早年软盘只有1.44MB的存储空间,而现在TWS耳机中的存储空间都超过了几十兆。


端侧是AI非常好的载体,以手表为例,它是唯一一个长时间佩戴且紧贴皮肤的装置,因此,非常方便成为健康监测装置,随着传感器发展,心率、血压信息都成为了可测量的数据。而最终,它会成为一个能够随时监测健康状态的能手。


把几亿人的信息全部送到云端处理显然不现实,而当边缘端拥有AI,把专业的医学知识灌注给它,它就会像一个移动医生一样,随时判断心率、血氧变化是否健康。这就是边缘AI的重要意义,这样的例子在边缘AI中不胜枚举。


炬芯科技周正宇博士:存内计算是突破AI芯片算力和功耗矛盾的关键


当然,挑战与机遇并存。对国产来说,在端侧做AI挑战有两方面,一方面如何以更好的能效比、PPA来实现人工智能,另一方面则是在于芯片制造,如何利用主流制程做到先进制程的产品性能,这是国产芯片设计公司必须面对的挑战。


自从ChatGPT问世,最大的变化是自学习和自适应,而在其中隐私是很大问题,未来端侧也必然也要面对这样的挑战。


”我认为现在AI最缺乏的是生态。”事实上,芯片行业大多情况都会把重点放在硬件设计,但实际上,一个行业必须拥有自己的生态,国内更需要自己的生态。就比如说,TensorFlow与算力之前其实中间还间隔了很多层,或者说工具,如果能做好这一层,就能建设好更好的国产生态。炬芯也会持续深耕,为国产芯片与生态建设添砖加瓦。


免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。


推荐阅读:

以工艺窗口建模探索路径:使用虚拟制造评估先进DRAM电容器图形化的工艺窗口

如何设计电池充电速度快4倍的安全可穿戴设备

电池冷却系统对电动汽车如何重要?

如何为ADAS 域控制器构建多摄像头视觉感知系统?

漫谈QLC其二:扛起NAND家族重任,老四QLC




特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索
 

关闭

 

关闭