本文来自微信公众号:IT时报(ID:vittimes),作者:郝俊慧,头图来自:视觉中国


 一系列与数据有关的消息正倾泻而下。


7月10日,国家网信办发布《网络安全审查办法(修订草案征求意见稿)》,要求掌握超过100万用户个人信息的运营者赴国外上市,必须审批。


7月12日,广东省印发《广东省数据要素市场化配置改革行动方案》,提出推动建设省数据交易场所,规范数据入场交易,培育数据要素交易市场。


加上此前2021年6月10日,第十三届全国人民代表大会常务委员会第二十九次会议通过的《中华人民共和国数据安全法》。


毫无疑问,数据将成为未来最有价值的资产,无论对政府、企业还是个人。然而,面对每年指数级上升的数据量,围绕数据收集、保护、流通、交易、监管的各种标准、政策、规范都还在路上。


当“数字化转型”成为全球课题,身处第一梯队的中国将如何回答好“数据治理”这道题?


“不出意外的话,我们国家近期会推出关于培育数据要素市场若干个指导意见。”复旦大学管理学院教授黄丽华近日在2021世界人工智能大会上透露。


不仅如此,一些全新的数据产业框架正初现雏形,而正在全力推进数字化整体转型升级,打造“国际数字之都”的上海,正在先行先试,数据交易所也将在社会主义建设引领区浦东率先成立。


蝉联城市开放数据指数冠军


什么是数据?一个简单却难以回答的问题。对于计算机而言,它不过是0和1组成的电子符号,但在现实中,它可能是你在互联网上不经意留下的一句话、双11“剁手”的数十笔订单、健康云系统里的一张核酸报告,或者在各种政府系统里画下的人生轨迹、被黑客买卖的一条条个人信息……那么,这些数据究竟属于谁呢?



黄丽华将数据分为两类:公共数据和社会数据,前者因其产生业务的机构是国家机关,因此具有公有资产属性,而后者,大多伴随企业业务而生成,其权属和利益分配是目前世界难题。


在相对权属明晰的公共数据领域,上海已先行一步。


2019年10月,上海市为推动普惠金融,扶持企业发展,降低银行业务风险,组织各政府部门公开数据资源,通过制度与技术双重管理,将公共数据安全、合规、高效向社会企业有条件开放,形成了普惠金融试点应用。


大数据流通与交易技术国家工程实验室数据资产评估中心主任张立钧透露,截至今年5月,已有18家上线银行对接,调用数据超过200多万次,向银行提供超过5.4万家企业的信息,为中小企业贷款超过700多亿,今年还会有超过15家金融机构参与普惠金融试点。


根据上海社会科学院绿色数字化发展研究中心发布的《2021全球重要城市开放数据指数》,上海蝉联全球重要城市开放数据指数的冠军。


图源:澎湃<br>
图源:澎湃


截至目前,开放了5000余项公共数据,形成8个标杆项目,11个领域大数据联合创新实验室汇聚1000亿条行业数据,访问量达9900万人次。


公共数据应以共享为原则


“公共数据应当以共享为基本原则,不共享为例外。”目前,上海正在积极推动数据立法,上海市人大财经委主任委员戴柳表示,起草过程中重点考虑的四个核心要义是:数据是重要生产要素、数据的共享开放开发与安全保护、数据权属与数据权益以及公共数据赋能与社会数据交易。


2021年3月5日,上海市发布的《2021年上海市公共数据治理与应用重点工作计划》明确提出,2021年上海要进一步推动形成全市数据治理一体化格局。这项工作的重点承接方是上海大数据中心。


据上海市政府办公厅副主任、上海大数据中心主任朱宗尧此前披露的数据,截至今年5月,上海数据湖归集数据658.59亿条,跨部门数据共享调用65.33亿次,跨层级数据交换244.28亿条,数据总容量超100TB。此外,全市已经归集了561种电子证照,随申办实名注册人数超过5000万,每天的访问人次达2000万左右。


不过,摸着石头过河两年之后,戴柳也发现,尽管成绩明显,公共数据的共享依然存在不少明显短板:第一,尽管各个系统数据比较丰富,但数据烟囱依然存在;第二,高频数据共享严重不足,根据国家权威部门统计,权威部委之间数据共享比例是个位数,如果是高频数据,更只有这个比例的四分之一;第三,数据归集的及时性和更新的及时性不够;第四,基层部门难以分享到数据。


黄丽华团队对接受普惠金融数据的银行和企业走访也发现,使用效果参差不齐。“很多企业并不知道这些公共数据到底有什么含义,不理解数据,自然也无法与自己的需求做匹配。”还有不少企业向黄丽华反映,自己没有数据加工和建模能力,拿了数据也不会用。


专家学者的担忧在《IT时报》记者对城市治理的实地调查中也多有发现。一位区城运中心人士便遇到过这样的尴尬:提出的某个数据需求报告,经过层层上报审批之后,最后拿到的数据却根本不是自己想要的。


“数据质量不佳和数据难出湖,是两个亟待解决的难题。”朱宗尧此前在某个论坛上如是表示。


数据应双向循环


对于公共数据的进一步开放共享,戴柳提出三个原则:建立公共数据需求清单、责任清单、负面清单,简称三张清单;其次,明确共享应当是便捷的;第三,数据流动应该是双向的,从基层收集上来再返回给基层。


所谓清单式大数据治理是以数据共享交换为核心理念,一方面,以责任清单和负面清单的形式,将数据使用安全风险转嫁给以大数据中心为代表的管理方,使各机构“敢于”共享数据;另一方面,精简业务流程、降低业务耗能的需求其参与“三清单”治理,使各机构“勇于”交换数据。


法律和技术也在进一步推动问题的解决。


星环科技为上海市和上海多个区县数据中心建设提供底层支撑,其创始人兼CEO孙元浩告诉《IT时报》记者,随着《上海市公共资源交易平台数据规范(试行)》发布、上海市公共数据标准化技术委员会成立等一系列规范措施的出台,数据质量将逐步提升,而数据“出湖”,反哺基层,也将随着技术的进步,可以工具化处理。他透露,目前正在为上海大数据中心开发一套数据加工服务工具,根据不同需求,设计逻辑和模型,从而加快数据成为产品之后的出湖速度,类似“随申码”这样的数据产品,将在各行各业陆续见到。


法律层面,尽管国家层面的数据管理条例还未出台,但各地方政府早已开始行动,《深圳经济特区数据条例》将于2022年1月1日起施行,上海、山东等地的数据条例预计今年年底也将颁布。



“治理,毋庸置疑将是数字经济的核心关键词,没有之一。”上海社科院绿色数字化发展研究中心执行主任李易表示。


数据交易进入3.0


相较公共数据,社会数据作为生产要素的应用市场前景更为广泛,面对的挑战也更加严峻。


此前,政府掌握八成以上全社会数据资源,是不少高层决策的依据,但最近几年,这个观点已被颠覆。国家信息中心大数据发展部规划与应用处处长王建冬透露,根据去年的一个内部调研报告,全社会数据总量中,政府只占20%,剩下80%是社会数据,包括互联网数据、企业工业数据,而且这个趋势将不可逆转继续下去,“未来是一个万物互联的世界,各种各样的设备、物体都会产生数据,政府的数据占比还可能进一步压缩,甚至到2%”。


社会数据的爆炸,意味着未来数据要素市场有非常广阔的空间,但首先要厘清的是,数据到底该如何交易?隐私如何得到保护?权益人的利益能否合理分配?


国内大数据交易市场始于贵阳大数据交易所,成立于2015年4月,此后,国内各地兴起一股大数据交易中心热,截至目前,全国约有20多个数据交易中心。但黄丽华认为,6年过去,大家依然还只是在探索,打头炮的贵阳大数据交易所更是已泯灭于众人焉,成了一座“空房子”。


最新消息,《证券时报》7月12日报道,贵阳大数据交易所目前业务陷入停滞状态,国资正计划全盘接管。


“大数据交易市场的模式,如今已经走入3.0时代。”李易此前告诉《IT时报》记者,随着2019年数据作为重要生产要素地位确立,业内越来越明确,必须建立“数据可用不可见”新型交易范式,制定相关的数据管理条例,而大数据交易所必须具有鲜明的国资背景。


从本届人工智能大会上热议的话题来看,可信AI、隐私计算、联邦学习等分论坛都座无虚席,通过技术将数据“脱敏”,乃至快速生成数据产品,已经成为对数据交易前提的共识。


图源: 大数据技术标准推进委员会<br>
图源: 大数据技术标准推进委员会


黄丽华则提出更加系统性的建议:以国家战略为指导,以现有法律为基本准绳,边发展边规范,培育与发展市场六大体系,如流通与交易规则、市场参与者、市场监管者、市场运营与合约服务、技术基础设施服务和社会性保障体系,以证券市场类比,既有证监会、上交所,也有证券公司、资讯平台。


戴柳透露,目前已基本明确,在社会主义现代化建设引领区浦东,建设一个数据交易所,此前上海数据交易中心已成立5年,在数据交易方面有经验可循,接下去要进一步大胆探索。但他强调,可交易的数据一定是经加工后的公共数据、脱敏后的个人数据、社会数据,同时要建立数据交易定价导则原则,数据的控制权、收益权、处分权可以单独交易,也可以组合交易。


数据资产化“小步快跑”


当然,最核心的问题,或者说,最难的问题,依然是数据确权。


“这是个世界性难题,但如果等这个问题解决了,再来发展数据要素市场,显然是来不及的。”黄丽华认为,全球各国都已经意识到数据资产的价值,纷纷出台相关的安全与管理条例,我们必须小步快跑。


图源:IT时报<br>
图源:IT时报


换个思路,数据确权的目的如果是实现数据资产价值并且分配的话,在社会数据权属尚不明晰的前提下,数据资产化的尝试并非不可行。


成立于2016年的上海数据交易中心,今年首次亮相人工智能大会,并宣布携手天津、内蒙古、浙江、安徽、山东、湖北、湖南、广东、广西、海南、四川、深圳等13个省市数据交易机构,正式成立全国数据交易联盟。目前,由上海数据交易中心打造的中国开放数据平台汇聚超过1万个高质量数据集,全国18省公共数据100000个开放数据集以及人工智能行业2000余个高质量开放数据集。


中国电子信息产业集团副总经理陆志鹏则提出,数据交易只能是原始数据的衍生品,他称之为数据元件。所谓数据元件,是指通过对数据脱敏处理,由若干个相关字段形成数据集,通过建模形成的数据特征。通过对数据元件确权,在通过数据元件对数据产品进行赋能,从而实现数据资产链和数据价值链的深度融合。


“未来的数据交易市场应该是三级的,第一级市场是数据资源市场,第二级市场是数据元件市场或者要素市场,第三级市场是数据的产品市场。三级市场确权以后,产权、权属、权益都会非常清晰。”陆志鹏认为,将数据资源交给市场配置,比在自己手上更有效率,更加公平,更加透明。


本文来自微信公众号:IT时报(ID:vittimes),作者:郝俊慧