1.3.4 大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点:大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)。

大数据,已经渗透到当今社会每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。2017年我国大数据产业规模为4700亿元,同比增长30%。这其中,大数据软硬件产品的产值为234亿元,同比增长39%。而中国信息通信研究院《中国数字经济发展与就业白皮书(2018年)》中的数据显示,2017年我国数字经济总量达到27.2万亿元,同比名义增长超过20.3%,占GDP比重达到32.9%。在这其中,以大数据为代表的新一代信息技术对于数字经济的贡献功不可没。我国大数据市场产值图如图1-11所示。

图1-11 我国大数据市场产值图

(来源:中国信息通信研究院)

在技术层面,以分析类技术、事务处理技术和流通类技术为代表的大数据技术得到了快速的发展,以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成。大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各类数据库的融合能力继续增强。

(1)数据分析技术 从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面,Spark已经取代了MapReduce成为大数据平台统一的计算平台,在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impla、Presto、Spark SQL等技术与传统的大规模并行处理(Massively Parallel Processor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能(Business Intelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。

(2)事务处理技术 事务型数据处理业务的高实时、强一致性、高并发、高可靠强要求成为集中式向分布式转型的难点,但随着核心业务量增长,OLTP(联机事务处理)向分布式转型将迎来拐点。传统事务处理技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。

(3)流通类技术 从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分地、定制化地提供安全性服务,使得各参与方在无须对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。

大数据的主要应用领域:

随着国务院《促进大数据发展的行动纲要》以及工信部《大数据产业发展规划(2016—2020年)》等一系列配套政策的出台和贯彻实施,我国信息化基础设施的不断完善,产业供给能力的稳步提升,各行业大数据发展基础环境持续优化。在十大评估行业中(图1-12),基础环境指数在平均指数(7.76)以上和以下分别占半数,高于平均指数的行业为政务、医疗、交通、电信、金融,总体占比为63.34%;低于平均指数的行业为商贸、工业、教育、旅游、农业,总体占比为36.66%。整体来看,2017年,我国各行业大数据发展迅速,基础环境整体呈现持续向好的发展形势。

图1-12 行业大数据基础环境评估图

作为制造业大国,我国工业大数据发展空间巨大,《中国制造2025》的深入实施,工业领域的软件和信息技术服务应用需求不断释放,工业技术软件化、工业APP以及工业互联网平台等工作进一步展开。2017年11月,国务院印发了《关于深化“互联网+先进制造业”发展工业互联网的指导意见》,提出实施工业互联网关键技术产业化工程,“聚焦重点领域,围绕生产流程优化、质量分析、设备预测性维护、智能排产等应用场景,加快开发工业大数据分析应用软件”,力争到2020年,实现工业大数据清洗、管理、分析等功能的快捷调用。工业互联网是工业与新一代信息技术融合的产物,而工业大数据作为连接汇聚底层软硬件设备数据、支撑上层应用的重要技术,它将成为工业互联网平台的重要内容和关键一环,工业互联网的政策发布促使工业大数据基础环境得到有力的提升。

金融业应用特点与大数据技术有较高的契合度,既是大数据的重要生产者也是主要应用者,当前金融行业即将进入“数据为王”的新纪元,截至2017年年底,工商银行、农业银行、建设银行、中国银行、广发银行等多个传统金融机构都开始建立自己的大数据分析系统,积极利用大数据技术实现转型升级。

医疗大数据基础环境发展增幅大的原因有二。一是国家持续引领提升医疗大数据发展基础环境。为贯彻实施《关于促进和规范健康医疗大数据应用发展的指导意见》,国家提出“1+7+x”总体规划,即建设1个国家健康医疗大数据数据中心,7个健康医疗大数据区域中心,并结合各地实际情况,建设若干个健康医疗大数据应用和发展中心。二是地方政府积极制订健康医疗大数据发展策略。福州、厦门、南京、常州作为首批健康医疗大数据应用及产业园建设国家试点,已形成了较为完善的医疗大数据发展基础环境。