语音控制前景广阔

但不能缺少声纹识别加持[2016年03月02日 第1333期]

[摘 要]

近日有媒体报道说,美国权威杂志《麻省理工科技评论》公布了2016年十大突破技术,百度硅谷最新一代的Deep Speech2语音技术赫然在列,百度硅谷也是唯一一家入选的中国公司。除此之外,还有免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶等科技成果入选。据了解,2014年底,百度开发了第一代深度语音识别系统Deep Speech,该系统加入了汉语语音查询功能,识别准确率高达94%。只有有了语音识别的高准确度才有可能谈语音交互。语音识别是一项很难直接带来现金流的业务,但是其应用场景却是相当广阔的。[查看全文]

语音控制前景广阔但不能缺少声纹识别加持

近日有媒体报道说,美国权威杂志《麻省理工科技评论》公布了2016年十大突破技术,百度硅谷最新一代的Deep Speech2语音技术赫然在列,百度硅谷也是唯一一家入选的中国公司。除此之外,还有免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶等科技成果入选。这则新闻似乎给近段时间负面新闻缠身的百度打了一剂强心针,而小编不管对于百度企业本身的作为如何看待,都不得不承认百度在这项技术上的研究是一件利在当代的事。

据了解,2014年底,百度开发了第一代深度语音识别系统Deep Speech,该系统加入了汉语语音查询功能,识别准确率高达94%。虽然语音交互的概念提了很多年,也零零碎碎的出了一些产品,但只有了语音识别的高准确度才有可能谈语音交互。语音识别是一项很难直接带来现金流的业务,但是其应用场景却是相当广阔的。

智能语音车载

曾经看过一款汽车的概念宣传广告,驾驶员通过语音指令找到自己的车;打开车锁,通过语音指令寻找导航,播放音乐等等,相当炫酷。当然对于智能车载来说更关键的是行车安全问题,对于驾驶员来说,能通过语音控制接打电话,查看自己的社交软件,绝对比在开车的过程中手忙脚乱的用手控制来的更安全。

智能语音家居

现在的智能家居市场之所以外热内冷,智能家居产品之所以不受消费者待见,一个非常主要的原因是现在的智能家居产品没有抓住消费者的痛点,将原本简单的事情复杂化了。在手机上找到控制app打开窗帘的过程远比消费者直接走到窗前拉开窗帘来的麻烦。而有了语音识别的智能家居则不一样,消费者只要轻轻说声“开窗帘”就能打开窗帘。

智能语音医疗应用

前一段时间,著名语音识别企业Nuance 在其官方博客上,公布了将发力医疗领域的消息。其产品不但能通过智能手表追踪人体运动情况和心率,还可以根据人的身体状况匹配相应的服务,如合适的餐厅或食物等。另外他们还考虑到更多场景,诸如紧急语音求助,医患对话存档,呼叫中心的对话听写等。

智能穿戴语音控制

我们总有那么些时间是没法使用自己的双手的。打电话,发微信,查路线,叫车,这些如果都可以用一个可穿戴设备通过语音控制实现,那该多好!

早在一年前,Intel 就开发出可穿戴设备原型 Jarvis,可戴在耳朵上之后连入手机,以此实现听懂主人发出的指令、给予语音反馈的功能,充当类似 Siri 的个人语音助手角色。

在以上提到的这些应用场景中,在小编看来,智能家居和智能车载的语音控制应用将会是划时代的,可以带动一个产业的发展。当然,谈完语音识别的这些应用场景之后,我们要回到标题的后半部分了。对于语音交互来说,语音识别是非常重要的,我们要完成人机交互,至少得让机器明白我们在说什么,下达的是什么指令,这是语音识别必须要做的。而在这之前必须要解决的则是谁在说的问题,简单的说我自己的汽车,不能是一辆谁都能操纵的车,它必须得知道谁是它的主人,谁发的指令它必须执行,而其他的人则让他一边玩儿去。这涉及到的则是生物识别的问题了,这就不是语音控制能解决的了,需要靠另一项语音技术——声纹识别。为了理解这个问题,我们先来看一下什么是声纹识别?声纹识别和语音识别又有什么不同?

什么是声纹识别?

声纹识别是生物识别技术的一种,通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,也称为说话人识别,它又可以分为说话人辨认和说话人确认。简单的说就是通过声音来判断人的身份。和虹膜识别、指纹识别属于同类。说话人辨认指的是,辨认出这个人是你,例如在缩小刑侦范围时需要用到辨认技术;说话人确认指的是确认这个说话的人是你,例如银行交易时需要确认的技术。

声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。这种特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉,鼻腔和口腔等,这些器官的形状,尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。每个人的发声腔都是不同的,就像指纹一样,每个人的声音也就有独特的特征。第二个决定声音特征的因素是发声器官的发声方式,发声器官包括唇,齿,舌,软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。

因此声纹就像指纹一样,很少会有两个人具有相同的声纹特征。美国几个研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计,利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可,并且在各个领域中都有应用。

声纹识别应用有两个非常显著的优势:

1、蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成。

2、适合远程身份确认,甚至可以通过电话、手机进行采集,实现超远距离识别。

这两个优势对于语音交互应用来说简直得天独厚,也就是说在实际的语音交互场景中我们可以远距离发声,通过声纹识别进行身份认证,而不是像虹膜识别等技术还要通过复杂的采集分机装置才能识别。想想通过语音指令让自己的车打开车门和在车架上安装一个虹膜识别装置,那肯定是声纹识别来的更方便。

当然,声纹识别也不可避免的有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;以及声纹识别的准确率是不是真的那么可靠等等。其中环境噪音的干扰问题会成为语音交互的一大障碍,因为我们无法保证语音环境是安静的。但是每项技术都不是完美的,我们需要包容的看待每一项技术。

慧聪安防网总结

综上所述,语音控制的应用场景非常广阔,但是少不了声纹识别的加持,两项技术,一个解决是谁在说话的问题,一个解决在说什么的问题,两者通力合作形成了语音交互应用的技术基础。

2016年 来自中国的深度语音识别系统

将影响全世界

近日,美国权威杂志《麻省理工科技评论》(MITTechnologyReview)将语音接口列为2016年十大突破技术,百度硅谷人工智能实验室(SVAIL)最新的研究成果——新一代深度语音识别系统DeepSpeech2位列其中。[ 查看全文]

结语

综上所述,语音控制的应用场景非常广阔,但是少不了声纹识别的加持,两项技术,一个解决是谁在说话的问题,一个解决在说什么的问题,两者通力合作形成了语音交互应用的技术基础。 

编辑团队
向良壁
慧聪安防网特约专家
钟娟娟
慧聪安防网责编
李佩
慧聪安防网责编
石慧
慧聪安防网责编
王逊
慧聪安防网责编
伏文飞
慧聪安防网主编