中国刑事诉讼法学研究会是团结全国刑事诉讼法学工作者和法律工作者的全国性法学学术团体,其前身是成立于1984年的中国法学会诉讼法学研究会(2006年,诉讼法学研究会分立为刑事诉讼法学研究会和民事诉讼法学研究会)。2013年12月,中国刑事诉讼法学研究会完成民政部社团法人登记手续,...
周 凌 吴 玲:统一刑事案件数据结构

【作者简介】刑事司法学博士,硕士生导师,武汉中南财经政法大学刑事司法学院副教授,刑事政策教研室主任,研究方向:犯罪学、刑法学、刑事政策和警务政策;刑事司法学博士,硕士生导师,中南财经政法大学刑事司法学院副教授,研究方向:刑事司法量化研究方法、犯罪学和警务

【文章来源】《四川警察学院学报》2014年第5期

 

【内容提要】目前,各类警务信息化工具在刑事侦查与治安实战中的运用却往往达不到预期的效果。究其原因,警务数据结构本身的内在缺陷是一个具有关键影响力却往往在相关讨论中被忽视了的因素。数据结构的短板对警务信息化建设的制约是全局性和中枢性的,它一方面并不会因为硬件条件、人员素质或者运作机制等其他方面的改善而自然消融,另一方面,即使在现有各方面条件保持不变的前提下,单纯对数据结构进行优化也可以在相当程度上改善警务情报工作的运作效率。结合我国警务信息化现实需求,在借鉴美国警务情报数据体系建设成功经验的基础上,可以提出一个具有实战价值的统一警用数据结构设想。

【关键词】警务情报  情报导向警务  警务信息化  数据库  实战化

 

  在信息化建设的旗帜号召下,目前各级各地公安机关建立了数量繁多、覆盖广泛的警务数据库群体。但是,在构建应纳入这些数据库的各类变量和指标的时候却没有一个体系化的宏观计划,导致每一个数据库自有一套独特的,封闭的数据变量体系,库与库之间,单位与单位之间无法实现数据衔接与整合{1}。而进一步分析我们还会发现,这些数据体系本身的设定也很少考虑警务工作实战需求,变量与指标定义不实际、不规范、不完整,很容易在信息录入过程中人为地造成信息的缺失与失真。可以说,缺乏一个全面统一的数据结构和缜密合理的数据规范成为了当前警务信息化建设的明显短板,直接导致了在警务数据使用过程中出现的诸多困难。另外,我们还应该注意到,数据结构的短板对警务信息化建设的制约是全局性和中枢性的,它一方面并不会因为硬件条件、人员素质或者运作机制等其他方面的改善而自然消融,另一方面,即使在现有各方面条件保持不变的前提下,单纯对数据结构的优化也可以在相当程度上改善警务情报工作的运作效率。因此,构建一个合理的统一警务数据结构体系对于当前进一步提升基层的情报导向警务实战效率具有战略性意义。

  本文的目的,就是结合我国警务信息化现实需求,在借鉴美国警务情报数据体系建设成功经验的基础上,提出一个具有实战价值的统一警用数据结构概念,并对其潜在的应用优势作一简要概括。

 

一、当前公安情报系统数据体系存在的问题

  (一)数据结构的不统一

  警务情报信息资源从分散走向整合是警务信息化过程中的必然趋势,然而在我国前一阶段的警务信息化建设过程中,由于缺乏统一的规划和协调,缺乏一个统一的数据结构,各级各地已建在建公安情报系统的技术标准并不统一。不同级别、地区、部门间在警务流程中实施数据管理的介入阶段不同,基础信息的分类编码不够统一,数据标准和系统结构相互独立,直接导致了公安信息不能实现有效跨地区、跨业务共享,形成所谓“信息孤岛”,严重削弱了警务信息的实战功用{2}{3}。举一个很简单的例子,如果A市公安局刑事案件数据库对于入室盗窃案件的数据编码为100032,记录在侵财犯罪类别之下的入室盗窃犯罪子类别中,而B市公安局数据库对于入室盗窃案件的数据编码100045,记录在侵财犯罪类别之下的盗窃子类别的大额盗窃子类别中,那么当某个犯罪嫌疑人在两地流窜作案时,由于数据结构的差异,两市公安机关的信息无法同步联动调取,不能实现信息的有效共享,只能通过人工研判的方式实现串并案处理。这类各地公安机关信息系统“各自为战”的情况是相当普遍的。

  (二)数据录入缺乏标准化操作规范。

  数据录入工作是数据库建库的基础,是将原始信息和手工记录转化为可供电子化调用与分析的数据的重要途径,也是可视化和科学分析,进而指导犯罪预防和侦查工作的前提。如前所述,在很多警务情报系统的实践操作中,当情报分析人员试图从数据库中提取数据进行分析时往往遇到诸多的困难,这很大程度上缘起于数据录入的不规范与不合理。我们知道,犯罪分析和警务分析往往都是具体化的,或者说情报分析人员必须提取众多不同的案件进行基于案件细节的个别化的研究,而研究警察的干预行为也必须建立在这个基础之上,这就要求对案件不同方面细节的描述具有类似建筑预制构件一样的标准化分类,便于分析人员在纷繁芜杂的案情中迅速发现内在联系与规律。但是在现有的警务数据库系统中,由于数据录入没有一个统一的,明确的操作规范,导致了一线警员录入案件信息时用语随意性极大,入库案件在以案情细节进行分类过程中没有准确的标准,也无从确立层级关系,从而导致了相当一部分变量的缺失。另外由于数据定义上的模糊,导致案件类别的之间不能达到相互排除,存在很多交叉重叠的部分,使得警务人员在录入数据的过程时难以准确归类,导致信息错误。这使得在进行警务情报分析时本应该很简单的数据提取变得非常麻烦。很多信息的误标误录造成了情报分析人员在分析前必须花费大量的时间进行数据清理工作,甚至还要结合手工记录材料中的描述性文字进行手动清理。因此无法发挥计算机情报系统自动数据处理的优势。

  (三)数据体系的设定脱离警务实战要求。

  当前我国的警务情报系统建设高度依赖IT专业技术人员,很多地方公安机关的信息系统开发都是由高等院校或科研院所的科技团队主持,在系统的技术指标以及科技含量上都达到了相当高的水平{4}。但是这些系统开发的过程中,真正的一线警务工作人员的参与极其有限。在这种建设模式下发展出来的警务信息系统以及数据库会面临两个问题:1.多数系统开发人员缺乏警务一线工作经验,因此对于其产品应满足警务工作的哪些具体要求缺乏认识,只能根据公安机关决策层提出的一些宏观而抽象的要求,再结合其他行业信息系统的通用经验来决定数据库结构以及信息系统功能模块设置。这样开发出的产品在公安部门也许可以满足机关办公自动化的一般性需要,但是对于在刑侦与治安一线工作中产生的实战情报需求往往缺乏有针对性的解决手段。2.专业技术人员在系统开发时往往过于追求技术指标与科技含量,导致系统过于复杂,界面过于专业化,却没有考虑到一线警务人员普遍缺乏高端信息系统操作能力这一客观现实,使其在进行数据录入,信息调取和情报整合等操作时面临不必要的界面使用困难,人为地增加了误操作几率,同时也降低了一线警员使用信息系统支持日常警务工作的积极性。上述两个问题结合在一起,导致很多一线警务人员产生警务情报系统“不好用,不管用”的认识,在配备了警务信息设备的情况下,却倾向于回去使用传统人工手段开展日常警务工作,使信息系统沦为高档打字机和“总结报告生成器”。

  问题的原因中一个不可回避的因素是没有一个合理的实战化、体系化的数据体系设计。笔者认为在今后的警务情报建设中有必要,也有条件对其加以补救。在具体操作模式方面,美国刑事司法系统发展其全国性警务数据共享体系的经验具有极强的借鉴价值。

 

二、美国警察部门警务数据共享工作模式概述及其借鉴意义

  与我国的单一制中央集权结构不同,美国采取分散化,地方化的政府结构形式,全国并没有一个大一统的国家警察机关,而是由存在于联邦、州、地方三级,各自独立,互不隶属的上千个警察执法机构来共同承担警务职责,在这样的组织环境下,跨机构,跨区域的信息交换与整合从以开始就是一个难题。而这种局面却反过来促进了美国警察部门对于数据整合工作的重视。经过多年发展演进,美国刑事司法系统成功地在全国范围内推广了一个可以基本覆盖日常警务情报需要的警务数据共享工作模式。这一模式在早期是以其著名的“统一犯罪报告”(Uniform Crime Report,简称UCR)数据结构为核心{5},在二十世纪后期,又经历了一次重要升级,UCR为“全国案件单兀报告系统”(National Incident-Based Reporting System,简称NIBRS)数据结构所取代,显著提高了该体系的数据容量和情报处理效率{6}。其总体结构特点是:

  (一)自愿加入基础上的多平台应用。

  由于美国的各警察组织高度独立,联邦司法部对其并无绝对权威。因此司法部联邦调查局在推广警务数据共享体系时只能是以一定程度的联邦拨款为杠杆的自愿邀约辅以授权有限的联邦立法,最终还是各警察机构根据自己的实际情况决定是否加入。同时,联邦政府并不干涉各地方机构自主建设的警务信息机制,而只要求其生成的数据与联邦标准格式接轨即可。由此产生的统一数据结构实际上就是一个跨平台的数据标准体系,不论参与其中的机构采用的是哪种软件平台,互相之间均可以实现信息交换与整合上的无缝衔接。

  (二)全国高度统一。

  美国各级警务执法机构尽管行政上高度独立,却主动将其各自辖区生成的警务信息在格式上与司法部所推广的数据格式接轨,使得警务情报与信息在横向及纵向的流转与整合毫无障碍。理论上,美国的任何一个警察机构所提供的第一手刑事案件数据都可以不加任何调整地直接整合到另一个警察机构的数据库中,马上生成可供情报研判的警务信息产品。甚至是取得授权的非警务机构组织也可以在一定程度上参与到相关信息的整合与共享中来。

  (三)数据结构适应实战要求。

  美国司法部最早推动全国犯罪数据整合的初衷只是为了全面准确统计全国的犯罪发案趋势。但是这种模块化标准化的数据形式具有天然的警务实战应用价值,所以很快就被各级执法机构用于犯罪情报工作之中。而数据情报的实战应用又反过来推动了数据结构的实战化改良。这种改良在美国新一代的警务数据结构中得到了充分的体现。同时数据结构的设定中高度重视了实用价值,使得警务情报在一线受到广泛重视和充分应用。

  美国的全国性统一警务数据体系建设起步很早,始于1929年司法部为了收集全国性犯罪数据而通过联邦调查局在全国各地方警务机构推广的“统一犯罪报告”(UCR)。目前它的覆盖范围达到全国98%的警务部门。UCR也是所有联邦公开数据中最常被用于犯罪学研究的官方刑事案件统计。UCR中最重要的两个数据部分包括警察已知犯罪数据(部分I)和警察逮捕数据(部分Ⅱ)。

  随着旧的UCR数据系统存在的种种问题在长达半个多世纪的应用中不断暴露出来,从1985年开始,FBI决定启动新的数据系统,即“全国案件单元报告系统”(NIBRS)。使用这类以案件为单元的数据结构有以下优点:

  1.案件数据的完整性。NIBRS数据以“案件”为数据单元,而非老的数据结构中以“犯罪”为单元。其优点就是当一个案件中包含多个犯罪时,在数据中可以得到充分体现,而不像在老数据结构中,由于一个单元只能容纳一个犯罪,当存在多个犯罪时,较轻犯罪就会被较重犯罪所覆盖,造成信息丢失。同时在数据结构中预留了充分的空间来涵盖多犯罪人,多受害人,多侵害类型,多损失类型,甚至多侦查进度等细节信息。这在基本上保证了案件信息的完整收纳。

  2.案件数据的全面性。除了在容量上预留复数事项的空间,NIBRS数据结构在变量参数的设定上也强调以实战需要为基础的全面覆盖。比如仅在案件类型这一信息上,就设置了数个层级的变量,可以覆盖案件的报案类型,实际立案类型,涉事刑法条文,案件子类型,涉毒涉枪类型,以及涉未成年人类型等多个变量,且每一个变量的具体分类设定也是紧密联系警务实战要求,做到了门类齐全,界定清晰,从而保证了案件分类信息的全面性。

  3.案件数据的独立可查找性。NIBRS数据强调案件的高度可检索性,因此对于案件数据中的“事”、“人”、“物”都设置了全系统统一的编号体系。理论上,任何一个案件,案件中的任何一个犯罪事项,涉案的任何一个个人,涉案的任何一项物品,均被赋予一个全系统唯一的编号,可以独立检索查找。

  4.案件数据的模块化。NIBRS数据由数个大的模块组成:案件管理模块,案情模块,嫌疑人模块,受害人模块,以及刑侦信息模块。另外还有一个相对独立的未成年人模块。每一个模块都可以单独抽出进行数据处理,也可以在不同部门根据不同实战需要将数个模块组合进行处理,同时模块之间可以方便地进行交叉检索。NIBRS数据体系的应用,是美国警务情报工作多年来贴近实战需要,重视体系建设,强调合同作战的发展思路在实践中的集中体现。这一体系的上述特点对于克服我们目前在警务情报建设上面临的困难都具有很强的参考价值。

 

三、一个实战化的统一警务数据结构的设想

  本文设想的警务情报系统使用的数据结构称为“统一刑事案件数据结构”(以下简称统一数据结构)。他在总体思路上借鉴了美国的“全国案件单元报告系统”(NIBRS)。以下为统一数据结构的一些主要设定:

  其一,统一数据结构的数据报告单位是“案件”。系统会为每起刑事案件单独生成一个全系统独一无二的报告序列,并以此为基础生成详尽而标准化的案情信息。根据信息的性质不同,单个案件报告可以覆盖多个不同的方面。每个案件将在案件类别、案件副案别和案情要点的基础之实施分类。利用案件类别和案件副案别这两个变量,可以实现对某类案件信息的因需调取。而利用案情要点这一变量,可以实现初步的案情关键字筛选调取。上述变量着重明确案件类别对案件分类的相对准确的层级关系。在明确层级关系的过程中,注意不同分类之间的相互排除,避免同一案件的重复录入和录入遗漏的出现。

  其二,统一数据结构的记录规则将“案件”定义为由同一个犯罪人(或同一群犯罪人)在同一时间和地点(或时间地点的延续性区间内)实施的一个或者多个犯罪行为。本数据结构要求对同一案件的多个犯罪行为及多个涉案人员分别建立详细报告,因此在统一数据机构中同一时间发生的一个刑事案件可以包括多达10个不同的犯罪,999个不同被害人和999个不同加害人。

  其三,统一数据结构包括了A组和B组两部分数据。A组是警察已知(未侦结)犯罪数据,包括了属于XX类犯罪的XX种事件类型(此处“XX”表示数量未定,将在以后根据警务工作实际需要确定分类以及事件类型的数量)。B组是警察逮捕结案数据。两组数据记录格式相同,可以进行互通查询。另外随案件侦查进度,A组数据会在侦查结案后转为B组数据。B组数据保留开放式接口,可以在需要的情况下与案件公诉信息以及刑事审判、处遇信息实现整合。

  其四,在统一数据结构的A组数据库中有6个信息组成部分,包括案件管理,犯罪,财产,被害人,嫌疑人,已被捕人。这六个部分实际上也就是这个数据库的六个级别。每一部分包括了不同的具体属性变量,变量设定分别如下:

  1.管理部分(一级,数据库变量号V1至V17):包括了一个犯罪事件的管理信息。这些信息包括了(VI)系统独有案件号,(V2-5)案件所属厅,局,分局,派出所,(V6)发案日期,(V7)发案时间和(V8-17)案件中包含的单个犯罪行为(最多可记录10条)。

  2.犯罪行为部分(二级数据库变量号以一级变量中的犯罪行为为基础,如进入记录的第一个犯罪行为相关各项数据记录为V8_l至V8_ x,第二个犯罪行为记录为V9_l至V9_ x,依此类推):(Vx_l)刑事案件类型代码(无论犯罪行为是否既遂),(Vx_2)犯罪发生地址,(Vx_3)犯罪发生地类型,(Vx_4)被侵人的住宅数量(仅使用于入室盗窃),(Vx_5)犯罪行为类型,(Vx_6)犯罪中使用的器械类型,以及(Vx_7至Vx_x)与特定犯罪类型相对应的特定犯罪手段(此处“x”代表数字未定。具体类型与手段分类可在数据手册的具体编撰过程中根据警务工作实际需要确定。下同)。

  3.财产部分(三级,记录方式与二级相同,每一个被涉及财产物件均单独建立记录,共可建立99个记录,为方便建立数据结构,变量号为V101至V199,而与每一个财产相关数据记录变量号为Vx_l至Vx_4):(V101至V199)涉案财产类型,(Vx_l)涉案财产名称,(Vx_2)财产损失方式(如被盗,被烧,被占有,被毁损,被丢失等等),(Vx_3)财产追回状态(如全部追回,部分追回,全部赔偿,部分赔偿,修复等等),(Vx_4)财产价值,(Vx_5)被找回的日期(仅针对于被找回的财产,包括车辆和毒品),(Vx_6)与涉案财产相关的犯罪行为(只在一个案件中存在多个不同犯罪行为且其中一些犯罪行为与财产无关时产生的记录)。

  4.被害人部分(四级,记录方式与二级及三级相同,每一个被害人均单独建立记录,共可建立999个记录,为方便建立数据结构,变量号为V1001至V1999,与每一个被害人相关数据记录变量号为Vx_l至Vx_x):(V1001至V1999)被害人身份证件号,(Vx_l)被害人的出生年月日,(Vx_2)性别,(Vx_3)民族,(Vx_4)国籍,(Vx_5)与侵害人的关系,(Vx_6)受害类型,以及(Vx_7至Vx_x)针对特定犯罪类型的侵害具体情节。

  5.嫌疑人部分(五级,记录方式与二至四级相同,每一个嫌疑人均单独建立记录,总共可建立999个记录,为方便建立数据结构,变量号为V2001至V2999,每一个嫌疑人相关数据记录变量号为Vx_l至Vx_x):(V2001至V2999)嫌疑人身份证件号,(Vx_l)姓名,(Vx_2)曾用名,(Vx_3至Vx_5)其他曾用名,(Vx_6)绰号(此记录为穷举性记录,即所有曾用绰号全部输入,以逗号隔开,可进行关键词检索),(Vx_7)嫌疑人的出生年月日,(Vx_8)性别,(Vx_9)民族,(Vx_10)国籍,(Vx_ll)与被侵害人关系,(Vx_12)涉及犯罪行为(只在一个案件中存在多个不同犯罪行为且不同嫌疑人参与行为不同时产生的记录),(Vx_13)是否被捕(本记录选项为“是”与“否”,当选择为“是”时,系统将该记录自动转换为被捕人记录),(Vx_8至Vx_14)嫌疑人体貌与行为特征(包括体型,发型,蓄须,可见疤痕,可见纹身,残障,口吃,等等),(Vx_15至Vx_x)针对特定犯罪类型的具体情节。

  6.已被捕人部分(六级,记录方式与二至五级相同。本级记录不独立产生,而是由第五级记录中的嫌疑人记录被逮捕后自动转换并补充信息产生,对于未经过嫌疑人记录直接逮捕的个人,先建立嫌疑人记录,然后直接转成被捕人记录。为方便起见,添加的数据记录变量号从Vx_101开始):(Vx_01)逮捕日期,(Vx_l02)逮捕类型,(Vx_l02)犯罪行为代码,(Vx_l03)居住状态(被捕人是否居住于实施逮捕警察部门的管辖区域),(Vx_104)未成年被逮捕人的法院判决代码。

  本数据结构为开放性构造,在总体结构框架下,其具体内容可根据刑事侦查实战的需要调整与添加。按照上述方式实现对警务数据系统的调整以后,就可以在由此获得的相对完整的、标准化的数据基础上进行基于情报导向理念的拓展式情报分析应用。有了坚实而广泛的数据支持,这种情报分析的实战应用价值是非常可观的。

  四、整合性的统一警务数据结构的实战应用前景

  大情报(big data intelligence)是警务信息化的要求,它包括三个重要的组成部分:作为其物质基础的信息设备软硬件(网络,数据库);作为其核心的情报分析体系与情报生产流程,包括量化分析,趋势识别和预测模型建构;以及作为其最高应用层次的,以情报为导向的警务决策指导和警务策略评估。在我国金盾工程的实施中,一期的目标就是建设基础设施,这个目标已经基本完成,各级各地公安部门已经建立了各种综合性的数据库和专业数据应用平台,如国家级的公安部违法人员数据库还有各省市的地理信息综合平台等。然而,现存的问题在于数据库之间的普遍存在的数据资源重叠和低利用率。而更重要的是由于我们缺乏统一的数据交互框架,导致数据在收集、处理和指导警务活动等方面人为地画地为牢,受制于一地一部门的独立标准,缺乏跨机构跨地区流通与整合,自然无法取得情报指导实战的最好的效果。如果可以应用统一数据结构,不论这是全国性的应用,地区性的应用,甚至只是几个合作公安机关之间的跨机构应用,基于数据模块化,标准化的信息收集与共享就可以在其应用范围之内成为可能。在这种实时生成、实时提取的数据来源基础上,警务情报工作就可以发挥出远远超过传统模式下的会战式集中研判以及阶段性总结报告所能发挥的作用。

  实现了统一数据结构的警务情报体系,其应用可以在战术和战略两个层面高效展开。

  在战术层面,可以建立一个在公安信息网络基础上的数据共享与远程分析平台。在日常的警事活动中,各地区,各警种将所接手的案件统一录入远程分析平台之中。它最大化地收集,共享和交互各种信息,特别是将来自一线的信息最有效率的在各个层级进行反馈和消化。这些数据的整合、分析、研判可以在多个地点,多个级别分布式地展开,并实现情报处理结果的实时更新和实时共享。那么,过去被刑侦部门视为畏途的大范围跨地区串并案就可以毫无困难地实现并且可以成为日常刑侦工作的一个组成部分。近年来多发的电信、金融类诈骗,由于其作案时空分布极广,由单个公安机关组织侦破难度极大,而通过拥有统一数据结构,实现了数据远程分析与共享的数个公安机关的合作,就可以极大地提高这类案件的侦办效率。

  在战略层面,统一数据结构的应用为公安机关真正打开了通向“大数据”情报导向警务战略的大门。其最直接的应用就是利用地理统计学犯罪预警来实现对犯罪发案规律的宏观掌握以及有效地前置防控。地理统计学预警主要是基于对犯罪发案数据的时空分析和对犯罪规律的掌握而预测未来犯罪的时空风险点,从而为警务部门实施前瞻性的犯罪预防行为提供依据,减少在低风险地点与时段的不必要的警力投入,实现有限警务资源的最优效率使用。

  在我国常用的警务地理信息系统中,经常使用的一个功能是搜索在某一选定地点周围一定地理范围内的犯罪分布情况,这类情报有助于有针对性地制定阶段性警务战略。然而,这种搜索所显示的犯罪信息是基于历史数据的。在缺乏统一数据结构的系统中,犯罪的信息收集受到自下而上的层层上报权限的限制,导致数据不仅不完整,而且有很大程度的滞后性。呈现在地图上的犯罪点阵视图虽然在一定程度上仍然有助于直观地了解犯罪的大致空间分布,但其在时间上的滞后导致其无法实现对信息时效性要求极高的风险分析功能。这样一来,警务情报系统就缺少符合严格定义标准的地理统计学预警功能。

  统一数据结构的推广以及信息共享与远程分析平台的建立,解决了犯罪信息收集滞后的问题,在此基础上,就可以发展具有预警功能的犯罪地理统计学分析平台。这一分析平台可以作为软件包嵌入警务情报系统之内,实时采集数据,动态划定分析的时空范围以及犯罪类型,并实时生成分析结果。而这一平台的功能已经超越了对已发刑事案件的侦查,而是更多面对宏观的战略警务决策与治安防控规划。

 

【注释与参考文献】 

      {1}黄松,孙树峰.坚持信息主导警务战略,推进公安工作信息化发展[J].上海公安高等专科学校学报,2008,(4):27-30. 

  {2}李旭辉.河南省公安工作信息化的现状与发展[J].科技信息,2011,29:192,160. 

  {3}曾立君.构建情报信息主导警务模式的几点思考[J].公安学刊,2009,(2):88-90. 

  {4}蔡振初.信息主导警务视角下的大情报体系建设[J].江西公安专科学校学报,2010,(5):62-65. 

  {5} Federal Bureau of Investigation, Uniform Crime Reports ,Washington, DC: Government Printing Office,2012. 

  {6} U.S. Department of Justice, Office of Justice Programs, Bureau of Justice Statistics, National Incident—Based Reporting System[M].