大数据交易所之困:数据流通定价解药何在?
本报记者/李晖/北京报道
随着北京国际大数据交易所(以下简称“北数所”)的发起成立,近年来不温不火的大数据交易所重回舆论场中心。根据官方消息,北数所将以培育数据交易市场、释放数据要素价值为核心,打造立足京津冀,辐射带动全国,面向全球提供服务的金融科技基础设施。
2015年起,受互联网金融和数字经济爆发驱动,多省市出现过几轮数据交易平台兴建热潮。但相比市场化大数据公司的野蛮生长,由政府背书甚至主导的大数据交易所模式却颇为消沉。截至今年4月,国内已公布的(含筹建)的大数据交易所(中心)已超过30个,但业务活跃的寥寥无几。
这其中,既有顶层设计、法律法规的缺位,亦有关键技术未成熟和体制机制的束缚。
据悉,目前市场最成熟的大数据应用就在金融信贷记录,而大数据交易所里,70%以上是带有金融属性的数据。
在数据要素化改革的顶层设计驱动下,大数据交易所再次升温。北数所的出现代表了一种新的路径探索,其技术突破一定程度上解决了此前困扰数据流通的最大难题——数据所有权争议以及数据的滥用。但这一商业模式同样面临重重挑战,能否走通有待时间的检验。
规范金融应用技术
从2014年成立贵阳大数据交易所开始,各类大数据交易所(中心)在国内遍地开花,但在 2017年之后开始降温。2018年到2019年,市场一度冻结。
“有立法健全和司法打击力度提升的影响,大数据问题动辄上刑事,合规成本高企,各地倾向按兵不动。”一位上海国资大数据公司内部人士向《中国经营报》记者表示,不过在他看来,“更重要的是业务很难推进,根本上模式就不成立”。
根据中国信通院发布的《中国数字经济发展白皮书(2020年)》,我国大数据的交易模式可大致划分为四种:政府牵头或背书的交易所(中心);行业机构为主的行业数据交易模式;大型互联网公司、大型IT厂商为主导的数据交易平台;垂直数据服务商主导的市场化数据交易模式。这其中,后两者主要以盈利为主要诉求,而大数据交易所(中心)因其权威性和合规性最强,对我国数据合规定价与流通的意义最大。
但大数据交易所模式始终不温不火。2015年4月,号称全球第一家的贵阳大数据交易所挂牌成立,一度引发关注。根据《贵州日报》公开信息,截至2018年3月,贵阳大数据交易所会员数量突破2000家,接入225家优质数据源,交易额累计突破1.2亿元。但此后,该交易所未再公布过相关交易数据。
一位大数据行业第三方技术公司高管向记者透露,不少大数据交易所的1.0模式就是把从地方政府、地方国企拿到的数据放到平台上,有机构需要交易,就开个API接口把数据连上。但后来发现,这种方式下的数据用途和用量根本不可控,接入数据交易的技术方、需求方、中介方等都可能违规私下截留数据,甚至将数据再“卖”给其他相关方。
前述国资大数据公司内部人士早年曾参访华东某市大数据交易中心,现场有人就私下向其表示,如果有数据需求直接接定向采购就可以,为什么要经过交易中心,他们能提供什么价值?从第三方过一道,数据就会有被截留的可能。
2020年11月,由中国人民银行发布的《多方安全计算金融应用技术规范》规定了多方安全计算技术金融应用的各种要求。由全国金融标准化技术委员会归口管理的《规范》,有助于实现在不泄露原始数据、保障信息安全前提下推动多个主体间的数据共享与融合应用。
事实上,随着技术发展,一些大数据交易所已经意识到1.0模式存在的问题,于是进入2.0阶段——建云,但还是未能解决数据泄露和数据滥用的问题。“在云上算一算再把结果给需求方,很多需求方仍会担心:数据、算法甚至参数放到云上,泄露了怎么办?”前述技术公司高管表示。
有别于银联、网联这样的“强牌照机构+金融基础设施”,大数据交易所可谓既无强牌照,也无强服务,这导致最终很多交易根本不发生在大数据交易所场内,交易所沦为了需求撮合的中介。
事实上,数据确权悬而未决导致数据难定价,这也让大数据交易所的商业模式始终不清晰。一位华东地区大数据交易所高管告诉记者:早期大数据交易所曾采取按比例“分佣”模式,但推高了数据交易成本又不能提供更有价值的服务。
“我们现在更多采取服务费的模式,比如有客户需要对接一些相关方数据,我们将双方模型部署后跑一个脱敏结果出来给到需求方。或者是需求方对与某一方直连数据有顾忌,一般会通过交易所,我们给出一个多方对接的解决方案。”他表示。
上述模式又很像市场化的数据服务商。他也承认:在这些方面交易所和市场化数据机构相比不占优势,“我们一方面做政府数据的开放共享,一方面做商业数据的流通,但优势肯定还是前者,这两者对能力的需求不一样”。
制度短板
“明文数据(相对于密文数据的定义)的交易流通在理论上是一个伪命题。”华控清交董事长兼CEO张旭东向记者表示。因为明文数据一旦被“看见”就会暴露信息,就可以被无限复制和传播,就无法控制用途和用量,就可能被滥用,就无法厘清“责、权、利”。在他看来,这是很多大数据交易所无法大规模推进数据交易的根本原因。
数据确权问题迄今无解。数据确权,指的是对数据所有权、使用权、经营权、知情权、遗忘权、修改权、删除权等一系列权利的确认。确权是任何资源市场化利用的前提,但在核心的数据所有权上,应该归属企业还是个人长期存在争议。在去年出台的《民法典》和《数据安全法(草案)》中,对此也没有进一步明确。
早年间,贵阳大数据交易所也曾发布《数据确权暂行管理办法》及《数据交易结算制度》,尝试登记数据所有权,然后对数据的使用权等进行公开竞价,以实现数据的登记确权及变现。
但前述技术公司高管指出:这种“分离”和数据竞价都是明文数据,而明文数据下面,所有权和使用权是没法真正分离的。隐私计算需要的算力通常是明文数据计算的十倍,很长一段时间这项技术都没有投入实践之中。此外,这种竞价所得的数据只是一次性的交易,后续数据的用途也并不可控。
根据北数所成立时官方披露信息,其正是通过多方计算技术实现“数据可用不可见,用途可控可计量”,实质上完成了数据使用权和所有权的分离。这也是市场定义其为“新型”大数据交易所的重要原因。
这项技术来源于国内多方计算领域头部机构华控清交,是北数所的四个发起股东之一。
“面对数据所有权难题,既可以等到法律规章明确后再依法合规地操作,也可以先摸着石头过河,从数据的使用权和受益权入手进行探索。”张旭东向记者表示。在他看来,如果利用技术手段把数据“可见”的具体信息和用不着“看见”就可以用于计算的使用价值分离,并能够对数据使用价值的具体用途和使用次数途进行控制,实质上就可以把数据的使用权从所有权中分立出来,为厘清数据使用的“责、权、利”提供技术手段。
张旭东认为:交易所流通的应该是数据的特定使用权,而不是明文数据本身。“交易所应该是餐厅,而不是菜市场。它出售的不是数据原材料,而是特定的计算结果。数据可用不可见和规定数据具体用途用量可以使数据的特定使用权成为有限的供应和有限制的需求,继而可以通过市场供需进行定价并大规模地交易流通。”
据透露,这套底层交易系统已经跑通,华控清交也正在建议和推动数据使用权的地方立法。
技术突破为中国大数据交易所解决确权和定价问题提供了解决思路,但这一市场的发展仍严重缺乏机制保障。除了立法层面缺失,地方在规划和执行层面仍处于各自为政、一盘散沙的局面。
前述大数据交易所高管就表示:目前交易所基本是各省、各部门各自为政,跨区域跨系统很难打通关,很多不同单位之间数据格式、字段内容不统一,接口不兼容,制度制约不能让数据价值有效流动。此外很多地方政府对于数据流通的看法还非常初级,“他们认为数据是自己的、本省的,但数据其实是没有地域限制的,这些都还需要三到五年的改造过程”。
而创新技术在解决多方问题上,也很难采取标准化方式。例如北数所目前采取的是数据分级管理——针对无条件开放的公共数据,通过北京政务数据资源网向社会免费开放;针对金融领域数据,采用授权调用、共同建模等方式,开展协同应用服务;针对高价值的多方数据,通过新型数据交易平台,采用多方安全计算、联邦学习等技术,支撑数据使用权交易。
一位业内人士就向记者指出:金融数据为什么没办法通过新型数据交易平台交易,也值得思索。