令人激动的语音UI背后那些事

作者:CQITer小编 时间:2018-06-13 21:46

字号

亚马逊Echo和Echo Dot智能音箱获得了成功,它已经使语音命令(通常称为语音UI或语音UI)出现在了新技术产品中。在每一部智能手机和平板电脑上,大多数新型汽车上,以及快速增长的音频产品中,都有这个功能。最终,大多数家用电器,音频和视频产品,甚至像健身跟踪器这样的可穿戴设备,最终也都会有语音命令功能。

“所需信号(用户的声音)与噪声(任何其他声音)的比率越好,语音UI系统越更可靠地工作。“

现在,数以百万计的语音UI产品已经出现,开始看到消费者对这些设备的预期——以及满足这些期望的挑战性。有限的成功以及更原始的语音命令产品表明,除了了解唤醒词,比如"Alexa"或者"OK Google",消费者不愿意适应这些产品可能对他们的其他要求,比如按下按钮叫醒设备,或直接进入远程控制。至少在家里,消费者期望一个语音UI产品来响应来自房间的指令,如果可能的话,甚至是来自不同房间的指令。无论房间的声学特性如何,不管产品放在房间的哪个位置,都期望可靠的声音识别,希望语音UI即使在中等噪音的环境噪声下也能工作。

虽然先进的语音识别系统依赖于基于互联网的计算能力,但语音UI系统的大部分性能取决于系统接收的语音信号质量。"garbage in, garbage out",同样适用于这些系统,就像它适用于任何其他技术一样。对噪音(任何其他声音)所需信号(用户的声音)的比例越好,语音UI系统就越可靠。

语音UI系统使用多个麦克风接收指令,声音识别系统的准确性很大程度上取决于这些阵列是否能够专注于用户的声音,以及拒绝不必要的刺激,如环境噪声或设备本身发出的声音。对于优化这些阵列和控制算法的大多数研究都是开发这些产品的公司密切关注的,这使得产品开发者较少。

让事情变得复杂的是对麦克风阵列设计的不熟悉。 虽然无数的工程师拥有扩音器设计和应用方面的专业知识,但在麦克风上经验要少得多——尽管大多数工程师的耳朵通常能够对扬声器的问题有一个粗略的概念,但是要评估麦克风的性能则要困难得多。 当一个阵列的麦克风数量成倍增加时,挑战就变得越来越复杂。 现在,工程师必须确定哪些类型的麦克风最适合阵列使用,使用的麦克风数量,以及放置的物理配置。

然后需要一个处理算法,使麦克阵列能够识别用户声音的方向,并在拒绝其他声音的同时专注于这个声音。许多这样的算法都是可用的,但所有的算法都必须优化,以适应麦克风的性能,阵列的大小和配置,以及安装外壳的声学效果。

语音UI中使用的麦克风

在语音UI产品中使用的几乎都是单音麦克风。MEMS(Micro Electrical Mechanical Systems)在设计语音UI产品的麦克风阵列中有许多优势:

小尺寸: MEMS通常每边不超过5毫米,因此可以在一个小的产品中安装多达7个麦克风。表面安装设计进一步减少了他们的痕迹。

低成本: 随着产品中麦克风数量的增加,成本成为一个重要的考虑因素。 MEMS集成电路往往是廉价的,它们也可以与具有PDM (脉冲数字调制)端口的处理器直接接口,而不需要昂贵的A/D转换器。

一致性: 麦克风阵列的可预测功能要求阵列中的多个指标匹配良好。由于 MEMS麦克风的制造采用了一个完全自动化的过程,就像用来制造IC一样,所以单元间的一致性通常是好的。

在语音UI产品中使用的大多数麦克风都是全向的,可以从各个方向接收声音。 由于麦克风阵列的方向性是通过一种算法而不是通过麦克固有的方向性来构建的,所以使用全向麦克可以让算法在处理各种麦克风信号时在拾取波束的方式上具有完全的灵活性。

全向麦克的另一个好处是,它们比定向麦克风更能满足频率响应。这种特性降低了算法的处理负载,因此,在产品组装中的方向不再是问题。在可用的MEMS 麦克风选择中,麦克风阵列设计师可以从敏感性、噪声、频率响应匹配以及数字和模拟输出等一系列功能和特性中进行选择。

语音UI算法的组件

语音UI产品中的算法实际上是几种算法的集合,每个算法都有一个特定的功能,可以帮助麦克风阵列专注于用户的声音,忽略不需要的声音。下面是语音UI中通常算法的简要描述。

触发/唤醒词

语音UI系统使用一个指定的唤醒词,如"Alexa"或者"OK Google"——用户使用这个单词来激活语音UI设备。这个唤醒词会有挑战的,因为设备必须立即在设备上使用自己的算法进行识别,而使用互联网资源会造成太多的延迟。设备必须在某种程度上保持活跃,因为它必须不断地监听唤醒词。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >>语音 UI 音箱
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接