从“能听会说”到“能理解会思考”——

智能语音引领人机交互新模式

  边录音边自动转写成文字的智能录音笔,支持中文与58种外语互译的新一代翻译机、模仿不同人说话的虚拟主播、供开发者使用的语音开放平台……在科大讯飞股份有限公司北京总部的人工智能体验中心,众多人工智能与语音融合的前沿技术项目令记者大开眼界。

  在即将到来的万物互联时代,语音作为人类最自然、最便捷的沟通方式,将会成为所有设备和产品至关重要的入口。业界普遍认为,未来的人机交互将以语音为主、键盘和触摸为辅。

  2017年11月,科技部明确依托科大讯飞建设智能语音国家新一代人工智能开放创新平台。近年来,随着智能语音应用场景和手段不断丰富,国内众多技术厂商在语音合成、语音识别、自然语言理解等人工智能核心技术领域持续发力。有理由相信,智能语音技术将给人们生活带来更为深刻的改变。

  语音识别:1小时录音5分钟成稿

工作人员在演示可用于大型会议翻译的讯飞听见智能会议系统,说一段话,屏幕上同时显示出中文和英语译文。记者 姜永斌 摄

  提起科大讯飞,很多人会想到其主打语音输入特色的“讯飞输入法”。这款早在2010年就推出的软件,版本号已经到了第9代。语音输入速度达到1分钟400字,并支持多种方言,准确率超过98%。

  在科大讯飞人工智能体验中心,工作人员安琪向记者演示了包括讯飞输入法、讯飞听见、讯飞有声等在内的多个软硬件产品。

  “现在我们看到的就是一个离线转写设备,叫讯飞听见智能会议系统,是全球第一款中文语音实时转写和多语种实时翻译的系统……”安琪说了一段话,系统立即在屏幕上输出准确的中文和翻译后的英文。

  据介绍,今年全国两会期间,代表委员们在小组讨论中的发言被这套系统“滴水不漏”地记录下来。以前的小组讨论,需配两三名工作人员,会后重听录音是常态。有了“讯飞听见”,只需配一名工作人员,会后半个小时就能得到准确的会议记录。

  语音识别就好比“机器的听觉系统”,能够把语音信号转变为相应的文本或命令。安琪介绍,随着深度学习技术快速发展,科大讯飞在语音识别任务中率先实现规模应用。2015年,在公证人员的见证下,科大讯飞机器语音转写准确率首次超过速记员。针对于噪声环境下语音识别的挑战,科大讯飞在国际最权威的多通道语音分离和英文识别大赛(2016年CHiME-4和2018年CHiME-5)中,连续两届所有场景下均取得了世界第一。

  另一款能快速转写录音的小型设备吸引了记者的注意,这是今年5月新推出的讯飞智能录音笔。

  “在研发之初,我们经过调研发现,81%的传统录音笔用户真正需要的不是录音,而是录音整理出的文字。像记者采访、会议记录这些场景,录完音后都需要及时将文字内容快速整理出。”安琪说,讯飞智能录音笔在联网状态下,1小时的录音出稿只需5分钟,中文普通话识别准确率高达98%,真正打通了从录音到转写再到分享以及后端查找编辑的全链条服务。

  智能音箱是如今语音识别技术的热门应用。市场研究机构最新数据显示,中国已成为全球最大的智能音箱市场,仅今年第一季度销量就达到1060万台。

  通常情况下,每次对智能音箱下指令前,都需要提关键词来唤醒,显得“不够智能”。而科大讯飞推出的MORFEI麦克风,内置了AIUI全双工语音交互解决方案,可以实现一次唤醒、连续问答。其远场语音识别技术,更是能在5米距离下达到95%以上的唤醒率、93%的识别率。

  同样受益的还有汽车领域。通过融合语音、视觉等感知技术,分析驾驶行为数据,整合优质内容资源,科大讯飞推出的飞鱼智行智能车载交互系统,将语音增强、自然语言理解等技术应用于汽车,并与各场景服务深度结合。

  语音合成:10句话复刻你的声音

科大讯飞MORFEI麦克风产品原型,搭载4+4双环结构麦克风,可实现远场空间全方位拾音。

  “大家好,我是全球首个人工智能多语种虚拟主播小晴。”“Now I will broadcast for you in English.(现在我将用英语为您播报)”流利自然的语言表达、落落大方的神态动作、精准对应的口唇表情,如果不经提醒,记者还真看不出大屏幕中“小晴”的形象和声音是人工智能合成的。

  据介绍,小晴可以用汉语、英语、日语、韩语等多语种实时播报,在5月底天津召开的第三届世界智能大会等多个重要会议都“露过脸”。

  虚拟主播背后的技术是语音合成,即将文字变成语音,让机器“开口说话”。实际应用中,只需将文稿导入虚拟主播系统,就能自动生成新闻播报的视频,播报的语速、停顿、声音模板等均可调控,不受人员情绪状态的影响。

  “语音合成的技术路线主要分为两类,基于单元挑选的波形拼接语音合成和基于深度学习的参数生成语音合成。”安琪介绍,2018年7月,科大讯飞在国际权威英文语音合成比赛Blizzard Challenge中连续13年蝉联世界第一,是中英文语音合成自然度指标唯一超过真人说话水平的公司,领先优势明显。

  目前,语音合成技术已经在金融、电信、政府部门的自动应答呼叫中心,天气、交通电话信息查询,汽车导航以及文本阅读等方面得到广泛的应用,但科大讯飞没有止步于此。2018年1月推出的央视纪录片《创新中国》,全程利用科大讯飞语音合成技术配音,再现了已故著名配音家李易的声音。

  没错,语音合成可以模仿真人的声音——只需录制10句话样本,大约5分钟时间,讯飞留声的深度学习模型就可以训练出用户的完整音库,从而将任意文本转换为用户的声音。

  记者打开“讯飞留声Lite”微信小程序,体验了一把“分身特技”。输出的声音听起来不仅做到音色高保真还原,朗读的语气、语调、情感也堪比真人。

  在创新技术加持下,偏远山区的留守儿童、异地恋的情侣、子女在外打拼的空巢老人……这些缺失陪伴的人群,都可以在生活中收获多一分温暖。

  认知智能:让机器能理解会思考

讯飞有声系统可自动朗读新闻和文本,支持不同类型声音。记者 姜永斌 摄

  众所周知,人工智能的发展经历了运算智能、感知智能、认知智能三个阶段。运算智能,即快速计算和记忆存储能力;感知智能,即视觉、听觉、触觉等感知能力;认知智能,就是让机器具备学习推理和决策的能力。

  “当我们掌握了语音和语言工具,我们就找到了一把通往认知智能的钥匙。”科大讯飞轮值总裁胡郁表示,能“听”、会“说”之后,智能语音将进化为“能理解会思考”。

  如今,国内许多出租车司机都能用手机上的翻译软件,轻松和外国人沟通;中国游客借助智能翻译设备,也可以轻松搞定国外道路路牌、餐馆菜单和超市购物;在不少国际会议上,机器翻译干脆直接扮演现场同声传译角色……安琪告诉记者,机器翻译近年来大幅进步的原因,在于新兴的神经机器翻译技术(NMT)取代了以统计模型为基础的统计机器翻译技术(SMT)。

  据介绍,神经机器翻译的“神经元”可以学习和收集信息,模仿人类大脑的神经元建立联系。它克服了传统方法将句子分割为不同片段进行翻译的缺点,充分利用上下文信息,对句子进行整体编码和解码,从而生成更为流畅的译文。

  2018年11月,科大讯飞的机器翻译系统首次在CATTI全国翻译专业资格(水平)技术能力测试中达到“英语二级”专业资格标准。

  其在今年5月推出的讯飞翻译机3.0,支持全球近200个国家和地区语言互译,以及拍照翻译、方言翻译,同时首创了自进化离线翻译引擎,中英离线翻译准确率95%,效果达到大学英语六级水平,而在线翻译准确率98%,达到英语专业八级水平。

  “尽管机器翻译技术在语料丰富的语言和用户相对配合的使用环境下达到可用性门槛,但由于语言本身的复杂性,机器翻译还有很长的路要走。”安琪表示。

  开放平台:赋能百万开发者

  2017年11月,科技部明确依托科大讯飞建设智能语音国家新一代人工智能开放创新平台。作为“国家队”的一员,科大讯飞做了哪些努力?

  “人工智能要有看得见、摸得着的真实应用案例,能够基于典型应用场景自我进化。”科大讯飞董事长刘庆峰表示,科大讯飞面向国内外企业、中小创业团队和个人开发者发布智能交互技术服务平台“讯飞开放平台”,以“云+端”方式提供语音合成与识别、语义理解、人机交互等相关的技术服务和垂直场景的解决方案,持续构建人工智能生态体系,“让每一个人都拥有改变世界的力量”。

  科大讯飞消费者事业群副总裁、讯飞开放平台负责人于继栋告诉记者,随着核心技术的提升,这一平台的能力也在不断扩展,目前已累计提供声纹识别、语音合成、人脸认证等近200项能力,不断降低创新门槛,让开发者更快地开发智能产品,获得更好的创业平台。

  截至今年6月底,讯飞开放平台上已经汇聚超过103万开发者团队,开发的总应用数超过65万,日均交互次数约47亿次。

  1024全球开发者节、iFLYTEK AI开发者大赛、首个人工智能技术与应用知识在线学习平台“AI大学”……科大讯飞依托其业务数据和业务场景搭建多个活动平台,让更多人通过云端语音操作系统iFLYOS、全链路物联网开放平台iFLYIoT等实现人工智能开发梦想,为人工智能产业培育人才。

  目前,科大讯飞通过平台赋能方式,已经深入教育、医疗、消费者、客服、汽车等多个行业“赛道”。

  “人工智能时代的竞争不是单个企业的竞争,而是一个产业链对一个产业链的竞争、一个体系对一个体系的竞争,是生态的竞争。”刘庆峰说,唯有生态生生不息,下一步科大讯飞要把现在的主赛道、把现有的资源做透做扎实,开放更多的赛道,助力人工智能生态建设。(记者 姜永斌)