“风起于青萍之末,浪成于微澜之间”,当前,以大数据法律监督模型建用为代表的数字检察发展已蔚然成风。今年上半年,北京市检察机关数字检察对监督线索发现、监督案件办理的贡献率分别达到66.5%、67.3%,数字检察监督案件占全部监督案件比例达到58.2%,以数字检察驱动法律监督提质增效,已成为北京市检察机关履职的鲜明特质。
最高人民检察院检察长应勇强调要构建“业务主导、数据整合、技术支撑、重在应用”的数字检察工作机制,这四个环节环环相扣、缺一不可。其中,从科技赋能角度而言,“技术支撑”是推动实现数据业务化承上启下的重要枢纽和关键节点。如果没有技术支撑转化,数据依旧是“沉睡”的数据,业务需求也无法从头脑中的“镜花水月”走向现实的应用场景。当前,全市各级检察院已经初步形成了检察人员自发应用、检察技术人员自主研发、第三方机构“外脑”支撑的数字检察技术支撑体系。
依托数字理念开展大数据法律监督工作,并不意味所有的监督模型都需要专门研发软件开展,针对不同数量级和结构化的监督数据,最具实效的做法是选取不同的数据分析方式,进行灵活多样的数据模型建用。
首先,对于低数量级且结构化的监督数据,可以用表格工具解决80%应用场景的数据分析。表格软件提供了大量函数可供使用,令数据分析简单方便。比如在对羁押期限、执行期限、缓刑考验期限、审限超期等各类涉及日期判断的审判执行监督场景中,使用日期时间函数和逻辑函数即可依据相关法律规定和业务规则对日期数据进行比对。又比如,在从业禁止、“判实未执”等各类涉及自然人、法人身份信息进行比对分析的场景,可以使用查询和引用类函数或者数据库函数实现。此种方式技术人员或是业务人员都可以在熟悉函数特点后直接使用,对结构化数据“剥洋葱”似的按业务规则和条件一步一步运算,逐步得到所需数据。
其次,对高数量级或非结构化的监督数据处理模式需要使用相对专业的工具软件或者简单编程解决。对于类似简要案情、电话记录等已经纳入表格管理的文本信息,依然可以使用表格软件文本函数或高级筛选器提取关键字信息。面对比较杂乱无规律的文字时,可以与表格软件搭配使用正则表达式来提取文字。检察技术人员具备一定的编程能力,使用编程软件配合正则表达式就可以更高效解决问题。比如,北京市房山区检察院检察技术人员在构建虚假诉讼套取公积金模型时,用正则表达式提取执行裁定书、协助执行通知书等文书号和被执行人身份信息,以及在利用12345市民热线信息构建模型时,针对电话记录文本数据时,结合搜索引擎建立文本索引并配置分词器,用查询语句搜索关键词形成表单,实现了在模型数据分析过程中对文本指定信息的提取。后续表格软件和编程软件结合之后,在数据分析和可视化方面会有更大的自主建用空间。
第三,利用低代码平台建立建模中台开展灵活自主建模。低代码平台是指无须编码或通过少量代码就可以快速生成应用程序的开发平台,目前有不少性价比很高的通用低代码开发平台能够进行轻度建模与数据转换,达到将监督数据进行转换、治理、分析、可视化等操作。北京市检察院连续两年开展数据分析技术专题培训班,已经有一部分检察技术人员使用低代码平台构建了如反向行刑衔接等多个模型。
最后,充分运用第三方技术支撑大型复杂的数据模型建用。处理数以亿计的数据、通过标记训练实现语义识别和分词提取、分析处理大量图片内容或建立动态轨迹……这些都对技术、资源、人力提出了很高要求,需要充分借助“外脑”资源。北京市检察机关与研发单位联合组建数字检察实验室,创新“黑自流”(黑加油站、自建油罐、流动加油车)安全生产法律监督模型,对22亿条危化品车辆数据进行聚合碰撞,结合卫星遥感影像实现了对北京市加油站涉税情况以及“黑自流”可疑点位的批量可视化时空分析。
科技运用没有止境。在数字检察战略实施进程中,检察技术队伍在强化技术支撑方面责无旁贷,需合理调配检察技术人力资源配备,培养提升自主数据分析能力,调整检察技术职能部门工作重心,积极引领对包含检察服务、检察管理在内的数字检察的技术支撑发展方向。
(作者为北京市人民检察院检察科技中心主任)
[版面编辑:李娜高航]