依图进军语音识别,一个「后来者」如何刷新行业认知?
作者:媒体转发 时间:2018-12-12 21:51
国内国外都有众多业者抢先布局,并陆续取得了资本的青睐与客户的认可,并且在积极的拓宽自己的边界。以机器人视觉见长的人工智能企业依图科技就是其中的一员。
从 2012 年创立之初,依图就全面投入到人工智能技术的行业应用的研究之中,先后在安防、医疗、金融等多个领域,打造了一整套基于人工智能技术的行业解决方案,进一步向全行业宣传普及人工智能理念的同时,为数字中国的建设注入了智慧与活力。
凭借着前瞻性的行业判断,以及贴近人性,实用高效的产品矩阵,依图科技相继获得了真格基金、红杉基本、高榕资本、高瓴资本等知名机构的资金扶持,公司的估值预计超过了 150 亿人民币。与此同时,公司还在今年在新加坡设立了首个海外办事处,企图抢占东南亚的广阔市场,推进品牌的国际化运营。可以说依图已经成长为推动国内 AI 领域增长的重要一极,其一举一动都被认为可能左右 AI 发展格局。
12 月 11 日,依图科技在北京时间博物馆举办了「一场有声音的发布会」发布了依图语音产品,正式宣布在自身成熟强大的图像识别技术的基础上,将技术的边界延展到了语音识别领域。
在发布会上,依图科技首席创新官吕昊博士强调,当下虽然市面上搭载了语音识别技术的产品屡见不鲜,但实际上在消费者端的真实体验依旧参差不齐,这也导致了体现语音技术的实际性能依旧不透明,难以让语音的技术力高效无损的转变为产品力,这也成为了制约语音技术商业前景拓展的一大桎梏。
针对目前行业内尚未形成系统性的测试集与测试标准,同时缺乏体验与比较的工具,吕昊博士强调依图科技要致力于语音识别技术的商业落地与具体应用,公司层面树立了全面公开算法 API 接口、公开多样的测试数据集、以及公开可重复的评测结果等三大战略。
为了进一步彰显依图践行以上三大语音发展战略的诚意与决心,依图科学家吴双博士首次对外公布了依图内部的语音测试数据。据了解,其中测试对象包括了依图语音、讯飞听见、云知声开放平台、阿里一句话等众多语音技术业者,在混响、近远场、电话、普通话口音等多元场景下,针对公开与非公开的数据集,实施了从 10 月 20 日至 30 日为期 10 天的技术测试。
字错率是业界用于衡量一款语音产品性能优劣的关键指标,业界普遍认为字错率低于 3% 时,语音体验不会影响可读性,而一旦字错率高于 15% 时,由于大量出现的错字、缺字、漏字等情况,会直接导致语音产品呈现基本无可读性的状态。
据吕昊博士介绍,在上述测试中,在近场同时安静的理想环境下,依图语音产品的字错率维持在 3% 左右,其中在全球最大的中文开源数据库 AISHELL-2 中,字错率更是只有 3.71%,识别准确率高达 96.29%,领先其他业者约 17%,而即使是在远场演讲并伴有混响的环境下,面对测试难度较高的诸如清华大学研发的数据集时,依图语音产品的字错率也能维持在 15% 以下,保持基本可用的状态,综合下来,在多元场景下依图语音的平均字错率仅有 6.39%,在全行业处于遥遥领先的地位,不仅表明依图语音技术拥有良好的识别准确率,同时也彰显了依图语音的技术普适性。
吕昊博士表示,拥有了性能如此优异的语音普适技术积累的依图科技,希望继续延续先前在人脸识别领域的发展战略,打造技术开放平台,继续切实为广大应用开发者,以及各行各业的效率提升,输出解决方案。据进一步了解,依图语音为应用开发者打造了可以实现短语音听写、长语音转写、实时语音转写等三项 API 接口,凭借业界领先的声学和语言模型,依图语音识别为开发者提供了准确高效的语音转文字功能。
与此同时,在现场依图宣布与微软联合发布基于 Azure 的语音开放平台,与华为共同研发智能语音联合解决方案,在先前在语音识别一体机、智慧政务、智慧园区等层面的合作基础上,依图旨在进一步深化与合作伙伴的互信赋能关系,更加切实的依托依图的语音技术实力与开放多元战略,构建一个技术普惠平台,探索语音技术行业落地更加广阔的前景。
据了解,目前短语音听写 API 已经上线,开发者可以通过官方开发的小程序进行体验。官方数据显示,现阶段依图语音的识别准确率高达 96.36%,处于业界顶尖水平。



