➢ 技术手段为数据流通提供新方案

为解决数据流通面临的诸多障碍,政府部门和大数据行业从业者进行了艰辛的探索。例如,从2015年开始,从国家到地方层面出台了多项旨在推进政府数据共享和数据流通的政策文件。这在很大程度上促进了政府数据共享开放,但对于企业间广泛的数据流通仍然未能解决其主要瓶颈。于是,大数据从业者们更多地将目光转向了技术手段。

其实,推动数据流通的技术主要需要解决个人信息保护、权益分配、数据安全保障、追溯审计等诸多问题。而其中较为核心的就是数据安全与个人信息保护。可以说,数据安全和隐私保护是数据流通的前提,特别是个人信息保护。《中华人民共和国网络安全法》规定:“未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”。因此,如何同时保证信息完整不缺失和保护被收集者个人信息成为数据流通中的迫切需求。从技术功能上看,需要满足以下几个方面的需求。

(1)对数据标识加密。利用加密算法将可识别个人身份的标识信息转换成不能识别身份的密文信息,且需要满足相同数据标识在不同数据持有方中被转换的结果不同,用于确保个人信息在流通中得到保护。

(2)加密后的数据标识可进行关联,需要实现不同参与方系统中的被加密标识可通过第三方转译进行再次关联,用于保证流通关联性。

(3)个人信息被流通前的有效授权,需要确保只在被收集者授权情况下才可启动数据流通,并确保个人数据只在授权范围内合法使用。

显然,没有一项技术可以同时解决数据流通的所有障碍。许多技术都是在某些环节以某种方式解决了数据流通过程中的某个问题。目前主要的技术手段包括以下几类。

(1)基于数据脱敏的技术

通过对数据进行脱敏后,发布低精度的敏感数据或者彻底不发布敏感数据实现隐私保护。当前对该技术的研究主要集中于数据匿名化方面,即有选择地发布敏感数据并将数据泄露的风险控制在较低的水平。然而,无论如何脱敏,必然使数据在某些维度方面产生了缺失,从而严重降低了数据的使用价值。

(2)基于数据失真的技术

有些时候企业对于数据的利用是统计意义上的,不一定需要每个个体的数据都保持精确。基于数据失真的技术就是在保证某些数据属性不被改变的情况下使敏感数据失真从而达到数据保护的目的。数据失真技术通过对原始数据进行随机化、交换、凝聚等扰动措施,使处理后的数据失去重构性,但能保证某些有用性质不变,以便进行数据挖掘等操作,从而实现信息保护。

(3)基于数据加密的技术

倘若有一种方法,能将数据进行加密,但加密后的数据仍然可以进行计算分析,那就在一定程度上避免了原始数据直接传输的风险。也就是说,基于数据加密的技术通过对数据进行加密,保证加密后仍然可用这一宗旨来实现数据保护。实现这一手段的技术方法就包括了多方安全计算、同态加密等隐私计算技术。这也就是本书讨论的主要内容——隐私计算。

可以将上述技术方式进行简要对比,如表1-1所示。

表1-1 兼顾隐私保护和数据利用的技术方式对比

当然,除了上面这些技术,还有很多技术也能在数据流通的各环节提供技术保障。比如区块链技术,可以不可篡改地进行授权信息的存证,对确保数据交易各环节的授权信息存储和验证可以提供重要的技术保障。正如前面提到的,没有哪项技术可以同时解决所有问题,技术之类的融合应用也成了缓解数据流通障碍的热点趋势之一,比如隐私计算与区块链的结合,关于这个话题我们将在后续的章节中进行讨论。