原标题:王砚峰:AI合成主播基于“搜狗分身”技术
经济日报-中国经济网乌镇11月8日讯(记者王婉莹) 11月7日,全球第一个全仿真智能虚拟主持人——“AI合成主播”亮相第五届世界互联网大会开幕日。
全球第一个全仿真智能虚拟主持人——“AI合成主播”。王婉莹 摄
“AI合成主播”到底是什么?长什么样子?
在发布会现场的体验中,观众只要输入一句既有的新闻文本,屏幕上就会出现一位虚拟的新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完全吻合。这样的视频效果,无论看上去还是听起来,都与现实中的主播的本人播报没有太大差别。
搜狗公司智能语音事业部总经理王砚峰。王婉莹 摄
搜狗公司智能语音事业部总经理王砚峰表示,在虚拟主播的开发过程中,进行了各种探索尝试,最终在“搜狗分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,“AI合成主播”正式诞生。
何为“搜狗分身”呢?
据王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。该技术能够利用搜狗的AI能力,从图像表情,声音语言习惯,逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和传递的效率。
以“AI合成主播”为例,以真人形象,配合“搜狗分身”的语音、合成等技术模拟真人播报画面,这种操作方式将极大减少新闻媒体在后期制作的各项成本,让新闻视频的制作效率有了极大的提高。
王砚峰还透露,“搜狗分身”技术实现了在不同场景下更为自然的人机交互,除了在媒体融合领域的应用外,未来还将在娱乐、医疗健康、教育、法律等多个领域提供个性化的内容。为提高社会生产和服务效率,降低行业生产成本,提升民众科技生活体验做出贡献。