腾博会官网主页

语智科技:远场识别一定要用麦克风阵列?这家公司用纯软件的方法也做到了 | 创业

发布时间:2026-01-13 06:10:06

麦克风阵列是由必定数意图声学传感器(一般是麦克风)组成的,用来对声场的空间特性进行采样并处理的体系,其能够有用处理影响远场语音辨认准确率的噪声、回声、混响等问题,因而,其被广泛运用于智能音箱产品中,包含亚马逊Echo、谷歌Home以及苹果HomePod都选用了该计划。

可是,用于语音远场辨认,麦克风阵列计划肯定完美吗?明显不是。

语智科技

创始人冯一就以为麦克风阵列计划虽好,但并不适用于任何产品,麦克风阵列计划主要有以下几大坏处:

  • 1、麦克风越多,则意味着终究产品的体积将越大,麦克风阵列不适用于寻求小体积的产品。
  • 2、麦克风阵列想要有好的辨认作用,麦克风只能像智能音箱中的那样水平、圆形摆放,关于像智能镜子这样的笔直产品,其并不适用。
  • 3、关于市场上更多的存量产品而言,他们开端并没有装置麦克风阵列,或许只要1-2个麦克风,他们莫非就不能具有远场语音辨认才能了?
  • 4、更重要的是,麦克风越多则意味着本钱越高。

为此,语智科技研制了一套全新的语音辨认引擎(FFASR),能够运用恣意数目(乃至能够只需求1个)以及恣意摆放的麦克风收集并进行远场语音辨认,然后防止上述麦克风阵列计划的坏处。

冯一介绍,麦克风阵列计划之所以本钱高、体积大,一个是由于麦克风自身的本钱和体积,而另一个原因则在于麦克风阵列计划需求对收集到的声响做必定的前端处理,详细包含单路信号的降噪以及将多路信号合成为一路等,然后才将信号传到云端做进一步的处理(包含语音辨认、语意了解等),这就意味着每一个麦克风都需求装备一个处理芯片。

已然音频数据终究都需求上传到云端进行处理,冯一由此以为做前端处理的必要性就不大了。因而,语智科技的处理计划是直接将麦克风收集到的信号上传至云端,并在云端做降噪、回音消除等处理。

详细来说,麦克风阵列选用了硬件级的计划,依据不同麦克风所收集数据的差异,处理了噪声、回声、混响等影响远场辨认作用的问题,而语智科技则另辟蹊径,选用软件算法的计划处理这些问题,即首要对噪声、回声、混响等进行准确的数学建模,并据此将噪音等从原音频信号中除掉,然后得到较为洁净的声响。

而这儿的难点则在于对处理声学降噪等的神经网络提出了更高的规划要求。据了解,语智科技为此特意将 CNN(卷积神经 络)、RNN(循环神经 络)、DNN(深度神 经 络)进行了深度整合,建立起了一个更杂乱的深度学习网络,并将网络分红许多部分, 以处理不同的使命。 这样的神经网络还需求更适配和先进的练习途径,语智科技因而又规划了新的练习途径,代替一般运用的 Kaldi ASR 练习途径。

而在终究的作用方面,冯一介绍,他们的纯软件计划在辨认率上尽管比不上多麦克风阵列计划,但相较于传统单麦克风计划,语智科技加持下的单麦克风计划的辨认率却能够进步15%以上,“从产品落地视点来看,这基本上便是可用与不可用的不同。”冯一以为这将使各类 IoT 设备脱节现在完结远场语音辨认有必要要用杂乱麦克风阵列的限制, 可大起伏减缩本钱,推动语音交互进驻各范畴的进程。

当然,语智科技的辨认引擎与麦克风阵列也并不是非此即彼的竞赛联系,“二者能够结合起来用,到达1+1>2的作用。”冯一如此介绍。

下流厂商需求旺盛,给FFASR技能带来更多决心

据了解,语智科技的远场语音辨认引擎FFASR开发者途径现已于17年12月底正式上线了,其能够让手机厂商、IoT设备厂商、Geeks以及任何想具有远场语音交互才能又不想或不能运用麦克风阵列的人零本钱地具有远场语音辨认才能。

语智科技方面表明他们并没有为开发者途径的上线举行发布会,只是只是在自己大众号上宣告了这件事,可是,只是是这样的途径,语智科技现已取得了下流厂商十分活跃的反应,在FFASR远场语音辨认开发者途径上线后的一周,现已有近10家厂商和开发者请求接入该途径。

冯一坦言,一家做智能魔镜的公司曾告知语智,他们很早以前就想让镜子具有语音交互的才能,这样才契合「魔镜」在人们心目中的姿态,可是其时的远场语音辨认引擎对单麦克风信号的处理结果十分差,用户体会很欠好,厂商乃至不愿意再宣扬自己的魔镜具有语音才能。而在镜子这种产品中添加麦克风阵列也不现实, 因而让「魔镜」成为真实「魔镜」的进展一拖再拖,一向未能找到适宜的技能计划。FFASR的呈现,让这家智能魔镜厂商在不更改硬件电路和工业规划的景象下,快速取得语音交互才能,抢先该范畴半代乃至一代的产品进展。

这一点让冯一和他的团队感到十分振作,并且这个远场语音辨认的功能只是是团队的小试牛刀。

最终值得一提的是,冯一是一位1991年出世的90后创业者,结业于北京大学计算机系,创业之前,曾是Google Now的核心成员,主导了多回合对话体系的研制作业。由于在谷歌的作业使他认识到了语音帮手的宽广远景,所以便在2016年头开端创业,并成立了语智科技,而半年后,其创业项目也从开端的语音帮手转向了远场语音辨认。“由于咱们在做语音帮手的过程中发现其时的远场语音辨认技能都做得不令人满意,不是作用欠好,便是价格太贵。”冯一如此表明。

据了解,现在语智科技具有职工约30人,2017年末宣告完结

Pre-A 轮 2000 万元融资

,由晨兴本钱、云启本钱领投,九合创投跟投。

题图来自123rf

← 返回