Facebook语音助理发展慢背后：急功近利干扰开发进程

2018-11-01 | 浏览：

新浪科技讯北京时间11月1日早间消息，据美国《福布斯》杂志网站报道，Facebook本月早些时候发布的智能音箱产品Portal背后问题不少，除了数据与隐私争议，这款智能音箱还有个明显的缺陷——缺少Facebook自己的语音助理，而是搭载亚马逊的Alexa。

这样就出现一个很尴尬的局面：花350美元购买Portal的Facebook用户实际上接入的是亚马逊系统，而亚马逊的同类产品Echo Show比Portal至少便宜100美元。而且Facebook无法收集任何语音数据，使其语音技术得到进一步训练。

Facebook从2013年开始大力投资语音技术。然而，尽管起步较早，作为拥有30275名员工、2017年利润近160亿美元的世界最大高科技企业之一，该公司尚未在语音领域赢得一席之地，而该技术被广泛认为是下一代人机沟通的媒介。

这凸显出Facebook在将新技术转化为产品方面存在巨大困难。过去五年，Facebook收购了多家语音公司，并聘请了很多语音技术专家，但两名知情人士表示，上述投资难以转化为有用的服务。原因很大程度上在于Facebook内部的意见分歧——在研发进度上产生混乱，以及开发者无法决定集中的领域。

直到大约两年前，公司内部人员才一致同意开发Portal，但已经太迟。“Facebook想在Portal上使用自己的语音转文本技术，但还没有准备好，”一位不愿意透露姓名的资深工程师对媒体说。使用Alexa是一个“重大劣势”，“如果无法获取数据，就很难进步和学习，并做出改进。”

Facebook的一位发言人在回应中指出，Portal用户可以通过说“嘿，Portal”来激活设备，以启动呼叫和访问设备控制，但该发言人承认，公司必须与亚马逊合作，“提供人们期望从家用设备中获得的各种工具”。Facebook没有回答关于语音技术开发的问题。在2016年，Facebook当时的Messenger主管大卫·马库斯（David Marcus）说，该公司对语音技术的开发“不够积极”。

产品经理与工程师矛盾干扰开发

事实上，Facebook一直致力于语音技术的开发，但产品经理和语音研发者之间的意见分歧干扰了努力方向。由于产品经理的开发进度要求快于技术本身发展的水平，这让工程师倍感压力。

一位资深工程人士说，产品经理经常希望语音技术研究能在“半年内”转化为产品。问题在于，由于语音技术的复杂性，构建语音技术需要半年以上时间。语音数据在不断变化，麦克风的类型不同，还有不同的口音和麦克风之间不同的处理硬件。要构建识别语音的软件，还需要首先在语音数据库上进行训练，然后将其投入实际应用，然后进一步在真实语音上进行训练。

比如苹果Siri的这一过程持续两年多。当苹果在2011年10月推出Siri时，它将语音识别软件外包给了Nuance，一个语音识别领域的老牌企业。但苹果不喜欢在战略产品方面依靠第三方，因此开始着手建立自己的软件。2013年，苹果在波士顿（距离Nuance几英里）设立了语音技术办公室，2015年，苹果公司悄悄放弃了Nuance这一合作伙伴。

就语音识别技术总体而言，谷歌处于领先地位。爱尔兰语音技术初创公司Voysis创始人皮特·卡希尔（Peter Cahill）对硅谷语音领域的描述是：“Google在顶部，然后是亚马逊和苹果，然后是Facebook。”他补充说，“最后一家正在努力冒出来。”

当时在Facebook高管团队中，有人希望使用语音技术研发Siri之类的数字助理，但这些项目需要长期付出大量时间和人力。由于研究者和产品经理之间缺乏合作，最终都不了了之。

消息人士称，很多参与开发Facebook语音项目的产品经理对其中所涉及的技术缺乏清醒的认识。经理们也往往每三到六个月一换，核心人员被吸引到大名鼎鼎的内部研究部门——FAIR和AML。这就相当于不断栽树，却不给它生根成长的机会。说到底，Facebook的问题在于缺少“一个有凝聚力的团队”。

比如，Facebook每六个月举行一次小组产品评审，通常会使研发方向发生变化，从基于语音的搜索，到新闻转录，再到Messenger语音助理——所有这些内部项目均未转化为产品。

收购初创企业获得技术被浪费

值得称道的是，Facebook在语音技术方面起步较早。2013年收购了移动科技（Mobile Technologies）——一家由卡内基梅隆大学（Carnegie Mellon University）推出的初创公司。他们开发了一款早期的翻译应用程序Jibbigo，可以听一种语言的语音，然后用另一种语言播放。当Facebook以未公开金额收购这家初创公司及其几十名研究人员时，引发了令人兴奋的猜测，即Facebook将开始与苹果Siri或者更多竞争对手合作。

“语音技术已经成为人们导航移动设备和网络的方式，其重要性日益显现，”当时领导这项交易的Facebook的汤姆·斯托基（Tom Stocky）写道。“这项技术将帮助我们更新我们的产品以适应进化需要。”

然而，即使Facebook将Jibbigo的团队规模扩充到原来的两倍，后者的语音识别技术最终也没派上用场。据参与交易的人士透露，Facebook主要想利用Jibbigo的技术来翻译用户帖子中的文本，这样就不必依赖微软的必应（Bing）。而Jibbigo研发的语音识别技术在一年后“下马”，此人补充说，这一收购基本上就是一场浪费。“它没有产生足够的点击……（人们）没有那么多说另一种语言的朋友。”

语音技术由两个关键组成部分组成。第一个是语音识别，还有一个是自然语言理解，也被称为语音AI。

2014年，Facebook收购了Wit.ai——一家专门从事自然语言理解的公司，向开发者授权使用软件，把文本的混乱结构变成可用软件查询的数据。然而，Facebook并没有将该公司的技术和语音识别技术结合起来，而是使用它来帮助企业建立Facebook Messenger聊天机器人，这是在2016年4月发起的一项变现计划。

“Facebook从来没有明确的语音识别策略，”另一位高级工程人员说。“从来不清楚为什么要买下（Jibbigo）。这在内部是个大问题。我们知道有这样一支团队，但没人知道他们为什么出现在这里。”

内部研究机构成“鸡肋”

据消息人士透露，Facebook的语音努力最终体现在2015年到2017年的两个领域：一个是转录Facebook视频的音频，以制作实时字幕，另一个是发布Facebook人工智能部门FAIR（即Facebook人工智能研究）的尖端研究成果。

Facebook在2013年12月启动FAIR项目，该部门常被比作DeepMind——2014年谷歌花费4亿美元并购的AI研究公司。这个部门由50名研究人员组成，在AI研究“大咖”Yann LeCun的带领下解决人工智能中的长期问题。公司内部还有一个类似部门称为AML（即应用机器学习），有大约100名工作人员，负责人工智能研究的商业化。

根据Facebook一位资深人士透露，这些部门的所扮演的角色很复杂——聚集一堆研究者，但对产品开发毫无贡献，还引诱技术熟练的工程师脱离产品开发。“它创造了一个平行的研究世界，”消息人士说。

最终，Facebook之所以没有更多投入于语音技术的开发，原因正如知情者所言：“没有客户，没有人对Facebook说‘我需要这种技术。’”

这正是那些想在更广泛竞争中胜出的高科技公司所面临的挑战。不断创新意味着在一个尚未被证实的技术上投下决定性赌注，即使缺少明显的客户。Facebook之前没有在语音技术上及时发力，等他们出手时，早已时不我待。(斯眉)

TAGS：苹果亚马逊 Facebook