12月26日,探境科技在北京举行了“AI算法新技术发布会”, 宣布公司成立两年半以来,已经走完了从芯片研发到商业化落地的全流程,在智能家居这个领域,卖出了100万颗芯片芯片,营收过千万元。与此同时,探境科技还发布了最新的音旋风612语音识别方案。
据探境科技CEO鲁勇介绍,音旋风611是探境科技推出的首款语音芯片解决方案,于2019年9月开始量产,目前出货量已超百万。此次推出的Voitist音旋风612是在音旋风611的基础上,完成了语音识别算法上的升级。
音旋风612主要有三个特点:一是降低了麦克风阵列对麦克风的指标要求,无形中节省了硬件成本;二是提高了高噪声环境下识别率;三是提升了有效算力。
在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。
目前家居环境下做语音识别面临的几个挑战:第一,低信噪比,这也是面临的最大挑战。“信噪比是将目标信号与干扰信号强度的比值取对数后乘以固定比例得到的。一般将信噪比低于15dB的称为噪声环境,0dB意味着语音信号和噪声信号强度一样,我们人耳识别起来也比较费力。我们的声音还有一个特点,强度是随着距离的平方倍衰减的,因此在空气中传播时衰减非常快,5m的距离和1m的距离比,声压强度会降低25倍,换算成分贝数会低27分贝,如果到了10m的距离声压强度会低100倍,声压会低40分贝。”
第二,非稳态的噪声影响。比如做饭的时候发出现叮叮咣咣的声音,或者交响乐里突然的节奏变化和声音强度的突变,带有突发性和不可预见性。
第三,多声源的问题。传统的信号处理算法的原理是增强波束内的信号强度,当干扰源方向与目标声源方向接近的时候,传统的处理算法无能为力。
对此,探境科技提出的解决思路是把增强和识别一体化处理,实现端到端的识别,推出基于FCSP的端到端AI双麦算法,放弃了传统的数字信号处理算法来做语音增强,而采用基础于神经网络的AI算法来做信号增强。同时,在模型训练期间,采取“注意力增强”的学习方法,能够灵敏地检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。类似于在一个嘈杂的环境里面,如果有人喊自己的名字,那么可能就很快反应过来。
探境科技技术副总裁李同治表示,“我们将一批信噪比在3dB左右的语音数据送到一家知名互联网公司的云端识别引擎做了测试,降噪后比降噪前的识别率能够提升30%以上。”
此外,探境科技芯片均采取了SFA(Storage First Architecture,存储优先架构)核心架构,主张以存储驱动计算。这是一种面对AI芯片里存储墙(AI计算资源丰富,但存储及数据搬运效率低下)的问题而设置的架构,从数据层和计算层中间,通过数据航线,进行节点间的数据搬移。控制器通过知道在动态运行过程中,哪些数据和哪些算子需要有一定的相关性,从而构建更加合理的网络路径。
探境科技表示,与比“类CPU架构”相比,在同等条件下, SFA架构数据访问可降低10~100倍;28nm工艺条件下,系统能效比达到4T OPS/W,计算资源利用率超过80%,DDR带宽占用率降低5倍。
除此之外,探境还设计了专门用来做语音识别的高计算强度的神经网络——HONN。“首先从参数上来看,高强度神经网络的参数量不大,大概是传统DNN算法的五分之一,因此我们用更少的参数量和更少的存储达到了更好的效果。与存储的需求刚好相反,高强度计算神经网络的算力需求量超过几百兆OPS,而DNN只有个位数兆的计算强度,它们之间差了30倍。从识别率上反映了这个差异,在安静的环境下两者的差异不是很明显,但是一旦降低了信噪比,两者的差异明显可以体现出来。”
整体上来说,音旋风612方案对提高了多麦的信号处理能力以及高噪声环境下的识别率和有效算力。探境科技CEO鲁勇表示,612主要面向智能家居领域,预期出货量在千万级。
探境科技成立于2017年,是一家“语音、图像结合的端云一体化“的AI芯片公司。“有些时候大家还是希望做一些在线的连接,所以我们会把离线和在线一起提供给大家,做一个整体的解决方案。”
语音这条产品线上,探境科技的旗舰产品是711/712,主要面对高端自然语言识别的场景,除此之外还布局了单麦和双麦的611和612,支持降噪的631,可用于可穿戴设备311以及精简命令词321。
图像产品方面,探境科技CEO鲁勇在会上透露,“已经流片成功”。
他在会上还介绍,到今年年底,探境科技已经拥有30家合作伙伴,涉及到灯具、热水器、垃圾筒、净化器等多种智能家居品类, 公司的语音识别方案也实现了“百万级产品出货”。
上一篇:« « 国内模拟芯片现状