原标题“AI合成主播”亮相乌镇互联网大会 搜狗分身技术成AI领域又一次突破与创新
每经记者 张斯 每经编辑 祝裕
11月7日,第五届世界互联网大会在浙江乌镇拉开帷幕,作为国内外创新创业成果集中亮相的平台,每年大会上呈现的“黑科技”都成为社会各界关注的焦点。在开幕当天,搜狗公司与新华社带来了全球首个合成新闻主播——“AI合成主播”,创造性地“克隆”出与真人主播拥有同样播报能力的“分身”。而随着“AI合成主播”的发布,搜狗人工智能的核心技术“搜狗分身”也终于浮出水面,成为大会开幕日的最大亮点之一。
“这是人工智能领域的又一次突破与创新。”现场,搜狗CEO王小川表示,“AI合成主播”是搜狗人工智能核心技术“搜狗分身”的一次重要实践,该技术能够利用搜狗的AI能力,从图像表情、声音语言习惯、逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和传递的效率。
同时,他也指出,人工智能是新一轮科技革命和产业变革的重要驱动力量。搜狗一直以“让表达和获取信息更简单”为使命,布局“自然交互+知识计算”的人工智能战略,在语音、图像、翻译、对话和问答等技术方向不断取得全球领先,先后推出机器同传、唇语识别、智能分诊、翻译硬件等融合AI领先技术的产品和服务,率先实现了人工智能技术的大规模商用。
音容面貌都可“复制”的虚拟主播
通过对目标人少量语音和面部视频的学习,复制出与目标人几乎完全一样的声音或者面部视频。“分身技术”等新技术的出现,让现场参会的嘉宾看到了搜狗在整个人工智能领域的布局和实际落地的场景。
在互联网之光博览会搜狗展台内,这项黑科技十足的“AI合成主播”技术成为了现实。据介绍,用户只需要输入新闻文本,AI合成主播就能用和真人一样的声音进行播报,而在播报的过程中唇形、面部表情等也能与真人主播完全吻合,效果惟妙惟肖。
新华社副社长刘思扬表示,当前,随着网络信息技术的快速发展,媒体格局、舆论生态、传播方式正在发生深刻变革,技术在媒体融合发展中的引领作用日益凸显。AI合成主播大幅提升新闻视频生产效率的重要举措。
现场,王小川重点解读了搜狗人工智能核心技术“搜狗分身”。他表示,“搜狗分身”是人工智能技术在模仿人类领域的一个新的突破,由真人主播面对镜头录制一段播报新闻视频,“搜狗分身”技术凭借这段视频,能够让机器可以首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配。
同时,他指出,“这次的成功合作让我们也受益良多,拓宽了我们在人工智能研究和技术落地创新上的视野和选择。AI合成主播的诞生,将为媒体生产端带来无限想象空间,是智能时代大幅提升新闻生产、传播效率、新闻价值的有效手段。
“搜狗分身”技术的无限应用想象
“搜狗分身”技术让我们切实地看到,机器以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。
搜狗语音交互技术中心总经理王砚峰表示,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。依托“搜狗分身”技术创新的信息传播形式,能够帮助媒体在融媒体转型、新闻时效性和跨语种传播能力等方面再上台阶,增强中国传媒业的国际影响力和全球竞争力。
据了解,该技术包含语音合成和图像生成两大引擎,能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型,让机器以更逼真自然的形象呈现在用户面前。
王砚峰介绍,搜狗分身技术具备两大难点,一是高逼真度,搜狗分身能够自动生成语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别,在业内尚属首次;二是个性化定制成本低,搜狗分身仅需使用少量用户真实音视频数据,即可快速定制出高逼真度的分身模型,该项技术也领先行业。
而值得关注的是,搜狗分身技术的应用场景非常广泛,可以涵盖需要人类参与的众多内容表达场景,例如新闻播报、虚拟教师、虚拟医生、虚拟客服等。在解放行业生产力的同时,“搜狗分身”技术给予用户更好的个性化音视频效果,用AI科技来切实的提高人们的生活体验。
在谈到关于合成主播和分身技术的未来期待,王小川表示,搜狗将会继续秉承搜狗的使命,进一步探索“搜狗分身”的边界,将“搜狗分身”技术逐步应用到中国与世界各国家跨语言交流场景中去,助中国走向世界,让世界更了解中国,为“一带一路”倡议下的国际合作提供帮助。