相关新闻:Netflix的个性化体验简史(下)
编译/TeresaChen
引言
这篇文章详细介绍了网飞公司Netflix从1998年成立,到最近推出“幸运儿”(I feel lucky)按钮的整个过程——这样的销售策略让网飞公司Netflix的用户完全依赖公司的个性化算法。这是一段奇幻的旅程,网飞公司Netflix采用自己开发的A/B测试系统进行了高强度的实验,推动企业不断改进个性化策略。
在20年的时间里,网飞公司Netflix的用户所能选择的电影已经从系统自动建议的2%,上升到今天的80%。之前,一名用户要搜索数百个标题才能找到自己喜欢的电影,而在今天,大多数用户仅仅需要查看40个标题就可以愉快的点击“播放”按钮。二十年后,网飞公司Netflix希望推出一个“恰到好处”(just right)的选项,不需要会员自行浏览或进行选择。
以下是网飞公司Netflix20年的历史,阅读每一小段仅需一分钟!希望你喜欢。
1998年:一家DVD邮寄业务的创业公司诞生了
1996年,随着DVD播放器的发明,网飞公司Netflix开始以邮寄DVD业务起家。1998年,网飞公司Netflix推出了一个只有不到1000张DVD的网站。这是网站最初的样子:
1999年,网飞公司Netflix共有2600张DVD可供选择。那时是按菜单点菜。直到2000年,网飞公司Netflix才成为一家可以“吃到饱”(all you can eat)的订阅服务公司。
1999年,网飞公司Netflix有2600张DVD可供用户选择,但公司打算将DVD库扩大到10万部。为了方便用户可以更轻松的找到喜欢的电影,网飞公司Netflix开发了一种个性化的销售系统。
2000年,网飞公司Netflix从“点餐”型业务,转为“吃到饱”(all you can eat)的订阅服务,该服务添加了一个队列,即每家每户通过点击“添加”按钮,创建的电影列表,并在一个已排序的电影列表中添加一个标题。每当有用户退回一张DVD,网飞公司Netflix就会将他们Netflix电影列表中的标题直接发送到邮箱。
2000年: Cinematch
网飞公司Netflix推出了一种个性化的电影推荐系统。公司采用用户评分系统,来预测会员对一部电影的喜爱程度。这个算法叫做Cinematch,是一种协同过滤算法。
有一个简单的方法可以帮助我们理解什么是协同过滤。比如,我喜欢看《蝙蝠侠:开战时刻》(Batman Begins)和《绝命毒师》(Breaking Bad),并且你也喜欢。那接下来,因为我喜欢看《卡西诺》(Casino),算法将会标明你也喜欢《卡西诺》。现在,网飞公司Netflix把这个方法应用到了数百万的用户和标题中。
2001年:五星评价体系
网飞公司Netflix设计了一个五星评价体系,并最终从用户那里收集了数十亿条评价。网飞公司Netflix尝试了多个“星条”(star bars),有时会使用积累星星的方法,用于表示预期评分、平均评分和朋友评分。其实有些混乱。
星星代表了用户对一部电影的喜爱程度。如果用户已经看过这部电影,他们就可以对电影打分。
红星表示会员对这部影片的期望等级,尽管大多数人认为这是平均等级。
2002年:多个算法并用
除了Cinematch之外,还有另外三个算法也在帮助电影商品化:
1.动态存储:该算法会标明DVD是否可用。在DVD时代的后期,该算法甚至可以决定DVD在成员的本地中心是否可用。到2008年,网飞公司Netflix只销售在当地受欢迎的电影,为的是增加DVD次日交付的可能性。动态存储。这种算法表明DVD是否可用。在DVD时代后期,该算法甚至可以确定DVD在会员的本地中心是否可用。到了2008年,Netflix只推销当地有售的作品,以增加次日交付DVD的可能性。
2.电影数据:这个算法包含了每部电影会用到的所有数据——情节梗概、导演、演员、年份、奖项、语言等等。
3.搜索:在早期,网飞公司Netflix在搜索方面的投资很少,团队认为用户们在寻找昂贵且新发行的DVD,这会给公司的经济状况带来更多的挑战。但团队后来发现,很多用户会选择老电影,制作成本较低或者冗长的电影,所以他们最终加大了搜索上的投入。
后来,网飞公司Netflix新加入了许多其他算法用于运行它的个性化销售系统。
2004年:家庭会员个人档案
Netflix发现家庭成员之间会共用一个账户,于是推出了“家庭会员个人档案”(Profiles)。这个功能可以让每个家庭会员生成自己的电影列表。“家庭会员个人档案”是一个要求很高的功能,尽管进行了大力推广,但只有2%的用户使用这个功能。管理好一份DVD清单,是一项艰巨的工作,而且每个家庭中只有一个人愿意这样做。
考虑到用户的低认知度,网飞公司Netflix宣布了取消“家庭会员个人档案”的计划。然而面对用户的强烈反对,公司选择顺从用户的选择。因为一小部分用户非常关心这个功能——他们担心失去“家庭会员个人档案”功能,会毁掉他们的婚姻。作为“所有成员并非生来平等”的一个例子,一半的网飞公司Netflix成员可以使用这个功能。
2004年:Netflix推出朋友圈功能
假设你在网飞公司Netflix创建了一个朋友圈,朋友之间会互相推荐好看的电影,并且因为不想离开这个朋友圈,也就不会退出这项服务。该功能上线时,2%的用户至少有一个好友,但这一指数字从未超过5%。
朋友圈功能让你可以通过该服务与朋友联系,然后看到他们观看了什么,他们向你推荐了什么。
网飞公司Netflix在2010年取消了这项功能,作为其“清除藤壶”(scraping the barnacles)行动的一部分——删除用户不重视的功能。与“家庭会员个人档案”功能不同的是,这个举措没有引起用户的反对。
在电影方面,有两点关于社交的发现:
1.你的朋友品味很差。
2.你不想让你的朋友知道你在看的所有电影。
在过去十年间,脸书Facebook成功地将他们的社交策略应用于许多产品,能有这样的发现确实令人惊讶。
2006年:网飞公司Netflix的个性化策略
以下是2006年的个性化策略。它是以战略/指标/战术的形式组织的,每个战略都有一个代理指标,以及针对每个战略的战术(项目):
其目的是收集显性和隐性数据,然后使用各种算法和展示策略,将会员与他们喜欢的电影联系起来。该团队专注于四个主要策略:
1.收集显性的偏好数据,包括电影和电视节目收视率、类型评级和人口统计数据。
2.找到隐藏的偏好数据,比如DVD用户将电影添加到他们的电影列表或之后,判断哪些电影是他们喜欢的。
3.创建算法和表现分层策略,从而能够更好的将用户与他们喜欢的电影联系起来。这一策略主要是用显性/隐性偏好数据,以及大量关于电影和电视节目的数据(评级,类型,剧情,主演,导演等),来创建将用户与标题联系起来的算法。预计网飞公司Netflix也将创建一个简单的用户界面,为个性化选择提供视觉支持。
4.通过将用户与更好的电影和电视节目联系起来,提高每个用户的平均电影评级。假设网飞公司Netflix为其用户提供更高质量的电影和电视节目,用户留存度就会更高。
更高级的假设:个性化策略可以通过让用户更轻松的找到他们喜欢的电影,来提高用户留存率。
高层次的粘性指标是留存率。然而,这需要花费年的时间来改变这个指标。因此,网飞公司Netflix有一个更敏感的短期代理指标:在使用该服务的前两个月内,给至少50部电影打分的成员的百分比。
他们的理论是,用户会给很多电影打分,以获得更精准的推荐。这些评级表明,会员们对他们获得评级后得到的个性化推荐表示满意。更多的评分表明,用户们喜欢网飞公司Netflix的个性化销售算法。
以下是这一代理指标在一段时间内的改进情况:
网飞公司Netflix个性化服务的早期代理指标,是在使用该服务的头两个月里,对至少50部电影或电视节目进行评分的会员的百分比。
为什么到了2011年,这一指标会下降?因为到那时,大多数会员都是流媒体电影的观看者,网飞公司Netflix对会员的喜好有着强烈的隐含信号。一旦你按下“播放”按钮,你可以选择继续观看或者停止观看。网飞公司Netflix不再需要收集那么多的星评了。
网飞公司Netflix花了十多年的时间,才证明个性化体验能提高用户留存率。而这一代理指标的持续增长促使该公司加倍重视个性化服务。
2006年:评级向导
最初的个性化功能培养基地是网站上一个带有“推荐”(Recommendations)标签的区域。但测试显示,会员们更喜欢描述性的标签。新的标签是“你会喜欢的电影”(Movies You’ll Heart),吸引了很多的点击量。尽管设计团队认为这个标签“很丑”,但是它成功了。
会员进入到“你会喜欢的电影”区域之后,该网站会向他们介绍什么是“评级向导”:
会员们一边等待DVD,一边“刷剧”。在“前两个月对至少50部电影进行评分的会员百分比”这一代理指标中,评级向导起到了至关重要的作用。会员们在网站中使用“星条”对许多电影进行评级时,“评级向导”是用户偏好输入的主要来源。
2006年:人口数据
网飞公司Netflix收集了用户的年龄和性别数据,但在团队采用人口数据来预测用户的电影偏好时发现,算法并没有提高预测能力。嗯?这是怎么回事?
网飞公司Netflix是如何衡量预测能力的?个性化算法的代理度量是RMSE(均方根误差)——这种计算方法是用于测量算法的预测评级以及用户的实际评级之间的变量。如果网飞公司Netflix预测你会喜欢《老友记》(Friends)和《宋飞正传》(Seinfeld),并且评级分别是四星和五星,恰好你给这两部剧的评分也是四星和五星,那这就是一个完美的预测。RMSE是一个“向下和向右”的指标,并且,随着时间的推移这个指标会通过协同过滤算法的改进而更新。可以从以下的图表中粗略得知:
均方根误差(Root Mean Square Error),是对所有Netflix会员的预测与实际收视率的计算。这是一个随着时间的推移,而变得更好的“向下和向右的”指标。
不幸的是,年龄和性别数据并没有能够改进预测结果——RMSE没有得到改善。电影偏好很难预测,因为它们是独一无二的,并且每个人的喜好是完全不同的。也就是说知道我的年龄和性别,并不能有效帮助预测的电影的喜好。但是知道一些我喜欢的电影或电视节目会更有帮助。
要想看到这一计算数据在今天的表现,就需要你的Netflix账户上创建一个新的个人资料。网飞公司Netflix会询问你几部喜欢的电影来启动个性化系统。这就是他们在系统里计算所需的数据。
2006年: QUACL中的协同过滤
QUACL是队列添加确认层。一旦用户在他们的电影列表中添加了一个标题,一个确认层会弹出提示类似的标题。下面是一位用户将日本动漫Eiken加入了他们的电影列表后,协同过滤算法所给出的6个类似的电影:
QUACL或队列添加确认层,是个性化推荐的一个重要来源。
随着时间的推移,网飞公司Netflix在向会员推荐类似影片方面会做得越来越好。作为一个营销来源,QUACL占总序列的比例会在几年的时间里从10%提升到20%。QUACL是算法测试中一个很好的测试环境。事实上,网飞公司Netflix在QUACL中开始了它的第一批机器学习测试。
2006年:100万美元的Netflix奖
和其他初创公司一样,网飞公司Netflix的资源有限。虽然他们已经证明了Cinematch的价值,但只有几个工程师专注于这个算法。他们的解决方案就是:通过Netflix奖进行外包算法开发。
网飞公司Netflix向任何能够将均方根误差提高至少10%的团队提供100万美元。
网飞公司Netflix向任何能够将其Cinematch算法的均方根误差提高到10%的团队提供了100万美元的奖金。个性化团队提供了来自Netflix会员的匿名数据,作为团队的训练数据,还有一个包含会员实际评分的数据集,这样,团队就可以测试他们的算法预测能力。这些团队花费了两年的时间,才赢得了奖金——在下篇会有更详细的解释。