近日,美国科技媒体The Verge发表署名文章,对百度刚刚推出的语音合成系统Deep Voice2进行高度评价,这一新技术可以通过短短半小时就学会新的口音,该文作者认为,这一产品的技术水平已经超过了苹果的Siri。
最近几年来,随着人工智能的发展,研究人员利用深度学习制造出能识别物体、理解口语,甚至模拟人类声音的系统,人工智能能够实现的功能越来越多,而且完成任务的质量也越来越高。
三个月前,百度展示了语音合成系统Deep Voice,可以实时合成出与真实人声区别很小的语音,不过这一系统一次只能学习一种音色,也就是说,如果需要合成不同语音特征的声音,需要重复进行长时间大量语料的训练。而此次百度推出的Deep Voice 2,则可以在短短半个小时内就学会一个特定说话人的口音,在这个基础上,系统还可以自动学习成百上千种口音,也就是能模仿数百个人讲话。
该文作者以苹果Siri与百度Deep Voice 2进行了比较。Siri每个新的语音都需要记录一个真人数千小时的发音语料,然后再进行长时间的训练并由工程师进行调整,从而让Siri说话。而Deep Voice 2则采用了不同的技术路径,通过学习数百个人的发音语料建立起人类发音模型,然后通过调整这一共同模型的不同参数来模拟不同人的发音,这整个过程都不需要人工干预,效率显然远高于Siri。
对此百度硅谷AI实验室Deep Voice项目的科研专家安德鲁•吉本斯基(Andrew Gibiansky)介绍说,“给出正确的数据,它就可以自己找到语音中的重要特点并进行自我学习。”
语音识别技术的应用场景和商业机会已是公认的广阔,而合成技术未来的机会亦是空间无限。Deep Voice 2可以用于大多数的人机交互场景,为我们的数字助理创建各种自定义角色。例如百度与中国联通就签署了合作协议组建智能客服,这样用户与智能客服的沟通就会出现不同的声音。此外,这项技术还可以应用在电子书阅读器的朗读功能,让电子书内容里的每一个角色都有属于自己的声音和相应的情绪、语气,听起来会生动很多。另外,Deep Voice 2可以用于其他需要语音交互的场景下,例如个性化的语音导航、智能家电等,都可以使用这一功能学习个性化的语音,比如自己喜欢的明星或是自己的男(女)朋友的声音,而无需再依赖导航产品官方发布的语音包。经历了键盘鼠标、触摸式的人机交互之后,语音作为第三代人机交互方式的浪潮已经到来。