自序
本书的设想最早形成于2014年11月。尽管当时我国官方尚未提出大数据战略,但大数据技术已经在电子商务、互联网、金融等先驱领域开始运用,国际上也有很多国家相继开启了“大数据革命”。欧盟委员会早在2010年就提出了“欧盟开放数据战略”;联合国推出了“全球脉动”(Global Pulse)计划,建立世界范围内的预警机制。美国、日本、英国、法国、韩国、新加坡、印度等国都将大数据纳入了国家发展计划。彼时,笔者开始意识到大数据巨大的发展潜力和前景,并考虑在侦查领域、司法领域推广大数据战略的可能性。结合我国当时的信息化侦查水平、网络侦查制度、电子取证等技术的运用,又了解了其他国家大数据在司法领域的运用情况,如在美国刑事侦查中“大数据预测警务”技术(predictive policing),美国民事诉讼电子证据开示中的“大数据智能检索”技术(predictive coding)等。笔者认为,大数据在我国的侦查领域将有广阔的运用前景。
近几年大数据的热兴也印证了笔者的想法。各侦查部门纷纷搭建大数据应用平台,发展大数据侦查技法,提出“智慧公安”“科技强检”等口号。但目前实践中各侦查部门的大数据运用尚处于摸索阶段,并没有形成统一制度,相关技术方法的运用尚不成熟,相关权利、程序缺乏法律保障。针对侦查实务中大数据运用的蓬勃之景,笔者以前瞻性的视角提出“大数据侦查”这一全新概念,对大数据侦查的内涵、特征、思维方式、技术方法进行了归纳和总结。另外,在发展大数据侦查的过程中,大数据本身的技术、思维特征也会不可避免地对一些传统侦查程序造成影响,对公民的相关权利造成侵害。基于这些问题,笔者提出大数据侦查的程序规制和权利保障制度,以及数据共享、技术构建、行业规范等相关的配套制度的建设。除第一章导论外,本书共分为五个章节。
首先,关于“大数据”及“大数据侦查”的内涵。大数据包括海量数据集、数据处理技术及数据分析结果这三层含义。大数据不仅仅是海量数据的集合,也是集数据处理、数据分析于一体的技术体系,同时也强调反映事物背后规律的数据分析结果。正确理解大数据的内涵还需要注意,大数据的基础在于数据化;大数据的量大是相对的,对于分析对象来说,达到“样本=总体”的程度即可;大数据的核心价值在于数据背后的规律而非数据本身,而数据规律主要依靠数据挖掘等大数据技术来实现。相比于小数据时代的思维方式,大数据具有全数据、混杂性以及相关性的特征:全数据意指人们完全可以获取某个研究对象的所有数据,不需要再通过抽样调查的方式进行统计;混杂性意指不需要每个数据都精确无误,数据的量大可以抵消部分数据的不准确;相关性则是指大数据颠覆了人类长久以来的因果关系思维,大数据能够快速告诉我们事物之间的相关关系是什么,却无法解释背后的原因。
在此基础上,笔者对大数据侦查的内涵和外延进行界定。从狭义上来说,大数据侦查强调采用大数据技术的侦查行为。大数据侦查是指法定侦查机关针对已发生或尚未发生的犯罪行为,为了查明犯罪事实、抓捕犯罪嫌疑人、预测犯罪等,所采取的一切以大数据技术为核心的相关侦查行为。具体而言,大数据侦查的主体是法定侦查机关,侦查的对象是已经发生或尚未发生的犯罪行为,侦查的目的是查明犯罪事实及预防犯罪活动的发生,侦查的内容是涉及大数据技术的一切侦查行为。从广义上来说,大数据侦查不仅仅指技术层面的侦查措施,而是包括大数据侦查思维、侦查模式、侦查机制等完整体系。相比于传统侦查而言,大数据侦查具有以下特征:侦查空间的数据化,大数据侦查在平行的数据空间中展开,找到与物理空间人、物相对应的数据形式;侦查技术的智能化,大数据本身就集人工智能、计算机等多个学科于一体,数据收集、数据清洗到数据分析的每一个环节都离不开机器的支持,因此大数据侦查技术必然也具有智能化的色彩;侦查思维的相关性,传统的侦查是一个由果溯因的重构犯罪过程,建立在相关性基础上的大数据侦查改变了这一传统逻辑,直接通过数据运算去发现各要素之间的关系,从而发掘侦查线索。大数据侦查作为一个全新的概念,也需要厘清其与技术侦查、侦查技术、信息化侦查、情报导侦等概念之间的关系。大数据侦查与技术侦查是交叉关系,大数据侦查中对某些数据的收集需要遵守技术侦查的规制;大数据侦查从属于侦查技术的范畴;大数据侦查与传统的信息化侦查、情报导侦之间是传承与发展的关系,大数据侦查建立在信息化侦查、情报导侦的多年发展基础之上,同时又大大推动了二者的发展。在目前的侦查实务中,大数据主要作为线索运用,但不排除大数据在将来会成为一种新的证据形式。总而言之,大数据侦查有利于推动事后侦查向事前侦查转型,被动侦查向主动侦查转型,单线侦查向协作式侦查转型,粗放式侦查向集约式侦查转型,它必将引领未来侦查发展的新方向。
其次,关于大数据侦查的思维特征。笔者结合大数据本身的特征和其在侦查中的实务运用,提出了相关性、整体性和预测性三大特征。相关性思维能够告诉人们事物之间的关联性但不能解释为什么。利用相关性,侦查人员可以找到犯罪现象的关联物,通过关联物来观察犯罪行为本身;还可以通过大数据的相关性分析发现更多隐藏的线索。整体性思维强调大数据时代取证思维的整体性和事实认定的整体性,在整体数据中寻找与案件有关的数据,在整体事实中选取与案件有关的事实。预测性思维则强调对未来时空犯罪活动的预测,包括对人、案及整体犯罪趋势的预测,从而有利于侦查人员合理部署侦查资源,防患于未然。当前,在“大数据热”的氛围中,也容易产生一些思维误区,如认为数据越多越好、数据可以不精确、大数据分析结果一定是正确的、大数据的相关性可以替代因果性、大数据的预测性违背无罪推定原则等。然而,大数据并非是万能的,数据采集中会有偏差,数据结果也会受到人为主观操作影响,大数据还会产生歧视和偏见,数据分析模型也会失灵。另外,大数据侦查的相关性思维特征还会对传统司法证明原理带来冲击。如何去协调传统侦查思维与大数据侦查思维的碰撞、如何在现有法律框架内去发挥大数据侦查的思维价值,是不得不面对的问题。
在前述基础上,本书归纳了大数据侦查的几种典型模式。在实务中已有的大数据侦查案例基础上,笔者从对象、时间等不同角度将大数据侦查提炼为不同模式。按照侦查对象的不同,大数据侦查可以分为个案分析模式和整体分析模式,前者主要针对具体个案的侦破,后者则面向于整体历史案件的多维度分析。按照时间序列的不同,大数据侦查可以分为回溯型模式和预测型模式,回溯型模式是针对过去已经发生的犯罪行为,而预测型模式则是针对未来未知时空的犯罪,强调对犯罪活动的预测。按照数据形态的不同,大数据侦查可以分为原生数据模式和衍生数据模式,在原生数据模式中,大数据只是作为一种技术、媒介,发挥的是“找数据”功能,不会改变数据的原始状态;而在衍生数据模式中,大数据则对原始数据进行了二次挖掘,发挥的是“分析数据”功能,获取的是新的数据形态。从“数据化”的特征出发,可以将大数据侦查分为“人—数—人”和“案—数—案”模式,前者是指在数据空间找到对应的数据化嫌疑人,后者是指在数据空间找到对应的数据化案件信息,两种模式都遵循着从具体到抽象的过程,大数据在两种模式中都扮演着连接现实空间和数据空间的中介。在传统“由案到人”和“由人到案”的基础上,大数据侦查可以分为“案—数—人”和“人—数—案”两种模式,前者是以案件为中心去找嫌疑人,后者是以嫌疑人为中心去寻找案件事实,它们的共同点就在于通过大数据连接起案件与嫌疑人之间的关系。
再次,本书介绍了实务中常用的几种大数据侦查方法,包括数据搜索、数据碰撞、数据挖掘、数据画像、犯罪网络分析、犯罪热点分析以及大数据公司取证等。数据搜索是较为简单的方法,其原理就是在海量数据库中检索出相关数据,具体包括数据库搜索、互联网搜索和电子数据搜索几种方式。侦查人员要注意发挥大数据智能化检索技术、一键式检索技术。数据碰撞意指通过多个数据集之间的自动比对来发现相关数据,数据碰撞往往能产生意想不到的效果。常见的数据碰撞类型有话单数据碰撞、银行数据碰撞等。数据挖掘是大数据较核心的技术,包括关联性分析、分类分析、时序分析等多种功能。数据挖掘的价值在于以智能化方法发现数据背后的深层次规律,发掘现象之间的联系,如嫌疑人的兴趣爱好、行为偏好等。数据画像是传统犯罪心理画像在大数据时代的新发展,通过借助基础数据库及数据挖掘技术,大数据可以对嫌疑人进行全方位、多维度的数据刻画。犯罪网络关系分析主要应用于恐怖活动犯罪、毒品犯罪等有组织的犯罪,意在通过大数据技术来发现犯罪组织成员之间的关系及其分工合作情况。犯罪热点是分析犯罪活动在时空位置上的分布规律,大部分的犯罪往往集中在少部分地区;犯罪热点分析还往往与犯罪预测联系在一起,通过对历史犯罪热点数据的分析来预测未来犯罪活动的趋势和走向。在大数据侦查中,不能忽视大数据公司的作用,大数据公司所拥有的海量用户数据是侦查中的重要数据来源,侦查机关要积极寻求与大数据公司的数据共享及技术合作。
最后,本书论述了大数据侦查的相关制度构建,既包括大数据本身的法律程序构建,也包括与之相关的配套制度建设。从权利角度看,大数据侦查难免会侵犯公民的个人信息权。目前,刑事侦查中的个人信息保护尚属于法律真空地带。侦查机关的数据收集、数据共享不可避免地会形成“大数据监控社会”,带来民众的心理恐慌;侦查中对个人数据的二次分析、深度挖掘更是对个人信息权的严重侵犯。因此,本书从审查批准、个人参与、比例原则等方面去寻求大数据侦查与个人信息保护之间的价值平衡。从程序角度来看,大数据侦查过程是不透明的,当事人不知道自己的哪些数据被收集、被分析,也不知道自己被采取侦查措施的数据依据。可见,大数据侦查对传统的正当程序带来一定影响,剥夺了当事人的知情权、辩护权等权利。因此,本书从通知解释、赋予异议权、数据记录等几个角度去规制大数据侦查的正当程序。另外,笔者还从数据共享、技术应用以及行业规范的角度提出了大数据侦查相关配套制度。在数据共享方面,要打破不同地域、级别、部门之间的数据孤岛现象,达到侦查机关内部的数据共享以及侦查机关与社会数据库共享;在技术方面,要建立大数据侦查的技术体系和应用平台;在行业规范方面,大数据公司要加强对个人数据的分级、分类管理,规范公权力机关调取数据的行为,对大数据公司的数据管理和第三方的数据调取进行衔接性规制。
本书系2016年国家社科基金年度项目“大数据时代电子文件的证据规则与管理法制建设研究”(项目批准号:16BFX033)阶段性研究成果。