前言

在大数据时代,随着信息量与日俱增,数据价值也得到越来越多人的认可。但大数据在迅猛发展的同时也带来不少问题,如怎样管理数据、实现数据价值最大化等,这些问题始终未得到完美的解答。在不同时间段,针对不同业务需求,数据的价值也不尽相同。为了最大化大数据的价值,互联网数据共享不可避免。然而,由于各个企业和部门之间相互独立,数据所在的系统甚至数据存储结构存在较大差异,数据之间难以进行信息共享,从而造成信息孤岛这一普遍现象。同时,互联网庞大的使用群体,也使得互联网数据在实现共享时,难以保障数据的安全性以及数据隐私。

为了解决这些问题,大数据治理与安全成为当下学术界与工业界最热门的研究领域之一。大数据治理主要在于建立一个统一标准化平台,从不同数据源中获取数据,在对数据进行生命周期管理的同时允许各方对数据进行相应操作(例如数据审计、数据筛选以及数据迁移等),从而实现数据价值最大化。而在数据业务流程中,这个统一标准化平台能够针对不同用户,根据不同的时间点以及IP地址,对不同的元数据进行权限设置,以保证数据使用的安全性。

本书总体分为两部分。第一篇:理论篇,包括第1章和第2章。第1章从大数据治理的概念以及作用两方面,阐述大数据治理的重要性,并对大数据治理的原则、范围及评估内容做了详尽介绍。第2章从大数据安全、隐私和审计三个方面出发,探讨了大数据安全所面临的挑战与问题,以及解决这些问题的技术与方案。

第二篇:开源实现篇,包括第3~7章。作者对开源社区中的大数据治理与安全相关的开源项目做了充分的介绍和实践,将内容根据不同组件分类,汇总成为该篇的主要内容。该篇全面介绍了Apache Falcon、Apache Atlas、Apache Ranger、Apache Sentry与Kerberos等大数据治理与安全开源组件的技术概况、配置与使用、场景设计与实现以及具体应用举例等多方面的内容。

第3章深入介绍建立在Hadoop环境下的数据过程及数据集管理系统Apache Falcon的技术概况与架构特点。在此基础上,对集群上进行数据保留、生命周期管理、数据血统及追踪等功能进行介绍。并且设计与实现了日常生产环境中可能用到的数据处理场景,可作为相关从业者的参考。最后作者举例说明了Falcon在数据流程管理领域的使用前景。

第4章全面介绍元数据管理框架Apache Atlas的技术概况、配置使用与具体使用场景等核心内容。本章首先介绍Apache Atlas在元数据管理方面的突出优势,进而对Hive、Sqoop、Storm及Falcon等多种元数据导入方式进行了介绍,并对元数据的管理做了十分深入的阐述。在此基础上,对Atlas的实时数据、非实时数据等元数据管理场景进行了设计与实现,可以作为类似场景下构建与使用的参考。

第5章讲述安全认证框架Apache Ranger的技术概况、发展近况、插件集成和功能验证等内容。本章首先介绍Apache Ranger在Hadoop生态系统中实施安全认证的优势和特点,并对Hadoop生态组件如HDFS、Hive、HBase等如何进行安全数据访问控制做出详细阐述。最后给出了Ranger四种不同策略的实际场景,对其安全功能进行了验证。

第6章对Cloudera公司发布的高度模块化的权限管理组件Apache Sentry做了深入的介绍,弥补了Hadoop文件系统HDFS缺乏对数据和元数据细粒度权限访问支持的问题。从Sentry的特点、优势、发展近况三个方面,对其架构中的Binding、Policy Engine和Policy Provider三大核心组件进行了详细的阐述。并介绍了Sentry的搭建与部署步骤,以及其与Impala的集成步骤和在各类场景下Sentry的设计与使用方法。

第7章除了对网络认证协议Kerberos的特点与组成、架构与应用等做了介绍以外,还对大数据应用下的诸多组件与Kerberos的集成做了详细的实践介绍,包括HDFS、Yarn、Zookeeper、Hive、HBase、Sqoop、Hue、Spark、Solr、Kafka、Storm与Impala,几乎涵盖了大部分学术界与工业界所涉及的各类组件,能够为高校科研人员与企业开发人员提供有效的参考与帮助。

作者认为大数据治理与安全理论部分已经有一些书籍进行了较好的阐述,而实践应用部分却十分匮乏。因此本书着重在实践部分使用大量篇幅进行详细的讲解描述。若读者想要查阅大数据治理与安全的相关理论内容,作者推荐桑尼尔·索雷斯的《大数据治理》和张邵华的《大数据治理与服务》两本书作为进一步的参考。

本书的作者除了封面和内封提到的六位之外,还有王文杰、段雄、吴琪、方久鑫、童楚云、陈超源、徐杰、陈喆、吴岳秋、吴成、张晶。

大数据发展迅速,而大数据治理与安全作为其分支,发展更是日新月异。由于作者水平有限,书中难免有不足与谬误之处,若读者发现问题并不吝告知,不胜感激。

本书讲述的相关组件,请读者到www.bitlinc.cn进行下载。

刘驰

lincbit@gmail.com