一、引言
信息技术革命与经济社会活动的交融催生了大数据。2015年8月,国务院印发了《促进大数据发展行动纲要》,把大数据作为基础性资源,全面实施数据强国战略,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。与此同时,我国公安信息化建设发展迅猛,公安市场大规模的信息化和装备投资产生了海量的结构化和非结构化数据,包括轨迹信息、工作信息、多媒体信息等。据不完全统计,截至2015年底,全国公安机关掌握的数据资源已达数百类、上万亿条、EB级的大数据规模。同时,数据产生汇集的速度越来越快,数据呈阶梯式增长。目前,公安数据的年增长率超过50%,增长速度远超以往任何时期。公安数据既有传统的结构化数据,也有大量文档、图片、视频、栅格、矢量、文本等非结构化数据,数据结构、存储方式多种多样。公安数据中蕴藏着人、事、物、组织和案件等丰富的信息,充分利用这些信息,挖掘海量数据背后隐藏的关联关系,对于维护社会大局稳定、预防和打击犯罪、辅助指挥决策都具有重要的价值。
各级公安机关快速积累并不断增长的信息数据已成为继警力资源、装备资源之后的新一类核心资源。如何有效利用海量信息并挖掘内在更大的价值,成为提升公安实战应用能力、建立立体化综合防控体系面临的重大难题。政法委书记孟建柱同志指出“谁率先拥有、善于利用大数据,谁就能掌握主动、赢得未来”,郭声琨部长也强调“要大力加强大数据时代公安基层基础工作,不断提高维护公共安全和服务人民群众的能力水平”。公安信息化“十三五”规划已将云计算、大数据等新技术应用作为优化基础性技术设施、提升信息化支撑能力的重要建设内容。
二、大数据相关概念
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数据巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息计算和服务业态。
大数据的特点可以用4个V来概括:第一,Volume,数据体量巨大,从TB级别,跃升到PB级别;第二,Variety,数据类型繁多,包括网络日志、视频、图片、地理位置信息等等;第三,Value,价值密度低,以视频为例,连续不间断监控过程中可能有用的数据仅仅有一两秒;第四,Velocity,处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后这一点也是和传统的数据挖掘技术有着本质的不同。这4个V对应了大数据领域中核心的4类技术,即大数据存储、大数据治理、大数据挖掘、大数据计算。随着近年来技术的发展,为大数据的处理提供了可能,也为公安工作思路创新提供了新机遇。
三、公安大数据平台架构
公安大数据应用是基于云计算平台构建基于全警采集、全警共享的统一的大数据平台,为实现智慧警务提供核心支撑能力。公安大数据平台架构如图1所示。
公安大数据平台分为接口数据层、数据汇聚层、数据库资源池、共享服务层、数据应用层、门户层六大层次。
接口数据层:提供公安内部数据、社会采集数据的接口引进管理。
数据汇聚层:提供社会数据、公安内部数据的采集交换、加工整合和数据治理功能。
数据库资源池:建立各类数据资源整合加工的成果存储管理机制,提供临时缓冲库、数据标准化库、细节沉淀库,以及衍生数据库和资源应用库。
共享服务层:提供数据资源的统一共享和服务管理功能,包括服务接口、接口配置功能、服务资源目录、资源服务总线和服务资源监控等功能。
数据应用层:资源应用层主要包括:综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能,以及趋势分析、异常分析、相关性分析等挖掘功能。
门户层:提供单点登录、应用导航、信息发布、交流反馈等功能,并实现与外界的统一交互。
四、公安大数据建设主要内容
(一)公安大数据资源规划
当前,经过金盾工程建设与应用积累,公安已经沉淀了海量数据资源,建立了多个实战业务应用系统,以资源整合共享理念为基础,建立了资源服务平台,形成了公安八大资源库。由于业务需求和业务理解不同,各业务应用系统中存在同名数据项实际业务含义不同,同业务含义的数据项名称不同,同义数据项的数据类型、长度等格式定义存在差异等情况,造成公安信息资源共享、关联应用的困难。
制定统一的公安信息资源目录体系和公安元数据标准,搭建信息资源服务平台,从源头上规范数据采集、整合和共享服务;基于业务属性开展人员、物品、案件、地址、组织、服务标识等主题域模型的细化设计,对数据进行科学、合理、标准的规划;建立数据逻辑集中、物理分布,全景逻辑一体化应用的公安大数据体系,是公安大数据发展的基石。
(二)公安大数据汇集
依托公安云计算环境的建立,通过公安内部数据接口实现与网综平台、警综平台、PGIS平台、情报综合平台、治安防控平台、三台合一接处警系统、监所系统、出入境系统、卡口数据库、视频数据库以及其他相关警种部门业务系统的数据交换。另一方面,通过公共信息共享交换平台接入社会外部单位的业务系统数据,如民航铁路订票系统、酒店旅店住宿系统、公路客运系统、通信运营商系统、工商税务系统、民政司法系统、社交媒体系统、电商系统、教育宗教等系统的外部数据。通过数据资源共享机制为各类情报应用系统提供数据资源支持。
(三)公安大数据管理
构建端到端、可视化的数据采集汇集和整合加工体系,并基于元数据技术,实现结构化数据、非结构化数据的一体化管理,涵盖数据采集、数据加工流程调度、数据质量管控等数据处理环节。
元数据管理:通过统一的平台元数据管控,实现对平台各类数据标准、定义、关系及规则等的集中管理和统一服务,确保平台数据运行的规范化、标准化、可视化。
数据质量管理:通过标准化的规则管理和调度控制,建立各类数据稽核手段、数据质量分析体系,确保平台数据一致性、完整性、合规性。
提供端到端的加工流程管控体系,采用体系化、标准、可重复的监管机制和执行流程,保证数据加工的统一及数据流程的透明性,保障数据质量及数据可用性,实现管理数据从采集、加工、存储、应用、归档到最终删除等一系列处理环节中的可视化、配置化、易调控,完成端到端的数据透明管控。
利用业务流程驱动机制,使各个数据处理节点的控制要素有机实现链式触发,提升平台数据管控的运营能力和效率,实现平台与内部系统及外部环境的信息数据共享。
(四)公安大数据服务
公安大数据平台对外发挥价值的核心是提供种类丰富、类型多样的服务接口和服务能力。从服务类型来看,可分为通用类服务、研判类服务和智能类服务。
通用类服务:在大数据平台提供的数据资源基础上,结合分布式计算、可视化分析和展现等技术,可实现综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能,以及趋势分析、异常分析、相关性分析等挖掘功能。
研判类服务:基于大数据分析挖掘,实现各类战法集市、积分预警模型、全要素分析工具、社交网络分析、隐性重点人挖掘、治安态势分析等综合情报研判功能。
智能类服务:综合情报研判功能,实现案件多维分析、人流激增预警、犯罪预测模型、人员智能画像、涉恐系数分析、人员亲密度模型分析等功能。
五、公安大数据关键技术
(一)公安资源融合技术
采用分布式大数据协同技术,实现“物理分布、逻辑统一”的数据管理,解决数据资源分布在多个地理分布的数据中心开展数据资源综合应用的问题;通过批处理和流处理引擎,实现对离线批处理的复杂处理和对流式数据的高速处理,为警务分析提供实时/准实时的快速处理能力;通过存储技术、分布式文件系统技术实现对复杂多结构数据的管理与分析,支持传统的Schema数据、Schema-free数据和视频/音频/图像数据的分析与管理。
(二)数据治理技术
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到机构全业务范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
公安大数据平台建设引入数据治理的核心思想和技术,从制度、标准、监控、流程几个方面提升数据信息管理能力,解决数据标准问题、数据质量问题、元数据管理问题和数据服务问题。
(三)数据挖掘技术
数据挖掘是从数据中自动地抽取出模式、关联、变化、异常和有意义的结构。根据数据挖掘的任务可分为多种类型,比较典型的有关联分析、分类分析、聚类分析、序列分析等。
关联分析:是在关系数据中,发现存在于项目集或对象集之间的关联规则,包括关联、相关性、因果结构或频繁出现的模式。常用的关联分析算法有Apriori算法及它的各种改进或扩展算法。
分类分析:分类是实现定义好类别,属于有指导学习范畴。分类分析是根据数据的特征为每个类建立一个模型,根据数据的属性将数据分配到不同的组中。常用分类算法有决策树、神经网络、贝叶斯分类等。
聚类分析:是按照某种相近程度度量方法将数据分成互不相同的一些分组,实现每一聚类内部的相似性很高、各聚类之间的相似性很低。常用的聚类算法有K均值、最近邻、神经网络等。
预测模型分析:是从数据库或数据仓库中已知的数据推测位置的数据或对象集中某些属性的值分布。建立预测模型的常用方法包括回归分析、线型模型、支持矢量集、决策树预测、遗传算法、随机森林算法等。
文本挖掘:文本是无结构或半结构化的数据,文本挖掘是从文本数据中推导出模式,其过程是通过文本分析、特征提取、模式分析的过程来实现。主要技术包括文本结构分析、文本特征提取、文本检索、文本自动分类/聚类、文档自动摘要、话题检测与追踪、文本过滤、文本情感分析等。
(四)可视化分析技术
可视化分析主要应用于海量数据关联分析,由于所涉及的信息比较分散、数据结构不统一,分析过程存在非结构性和不确定性,不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。借助可视化数据分析平台,辅助人工操作将数据进行关联分析,并做出完整的分析图表。图表中包含所有事件的相关信息,也完整展示数据分析的过程和数据链走向。
六、公安大数据应用
——以涉恐等为例
(一)涉恐系数
涉恐系数应用以部级信息资源服务平台汇集的数百亿条数据作为数据基础,应用机器学习等大数据技术,提炼反恐业务特征数据项,学习已掌握的涉恐人员数据,提出人员刻画六维模型,即从身份特质、行为偏好、关系网络、不良记录、时空轨迹、经济状况六个维度描述和刻画一个人。每一个维度上又包含了大量具体的特征。在此基础上,构建形成涉恐人员标签体系和涉恐系数综合计算模型,通过大数据分析处理实现对千万级目标群体的涉恐概率计算。
某市公安局根据涉恐系数计算结果,对23人进行落地核查和跟进管控,核查出涉恐人员7人,取得了较好的预警效果。
(二)犯罪预测
犯罪预测应用利用大数据技术,自动抽取警综平台内案事件、人口、地理、天气、房价等数据进行智能建模分析,预测当天辖区案件的高发区域及发案概率,把需要重点防控的区域以简明扼要的图形界面直观地凸显出来,科学引导一线巡防。
犯罪预测应用使用的数据集包括了警务综合平台的接处警、案事件、人口等39类公安业务数据,以及地理、天气、房价等11类社会时空地理信息,共约8亿条数据。与传统数据分析采用抽样数据不同,大数据预测是用全量数据。通过机器学习,发现各类因子与警情的相关性,形成预测模型,不断用数据检验预测结果,修正完善形成最佳的预测模型。
某市公安局下辖各派出所采用犯罪预测系统三个月后,统计入室盗窃类违法犯罪警情由2814起下降至2520起,同比下降10.5%。
(三)警务监督管理
警务监督管理应用利用大数据技术,构建预防腐败工作“1+3+X”大数据技战法模型,通过抽取有关业务系统高风险项目监测点数据,对业务工作、队伍管理等信息开展关联碰撞、分析研判、预警提示,重点解决传统监督手段进不了系统、系统之间信息关联不够、违纪违法苗头难以及时发现等问题,达到预防腐败工作抓早抓小、防患未然的目的。
某市公安局纪委针对近年来查办的民警利用职务之便,违规将户口迁入拆迁地区以非法获利的案件,围绕人口系统“办理常驻户口登记”权力运行中容易发生问题的风险点,关联派出所综合信息系统、警力资源信息系统、执纪办案信息系统、投诉举报信息系统的信息资源,对2013年以来某派出所办理户口数据进行分析,发现了18名民警将本人户籍由原来的城镇居民户口(楼房),迁入农村重点拆迁地区的异常情况。
七、结论
随着公安信息化建设与应用的不断深化,公安机关掌握的数据资源的广度和深度正在快速扩大,各警种业务对大数据的依赖性越来越强,对大数据定制服务、模型研发的需求越来越多,要求越来越高。实施公安大数据战略可以顺应信息化条件下公安实战需求,加强对公安内外部数据资源的汇聚、清洗、管理、挖掘分析等工作,为各警种提供更高质量、更有针对性的大数据定制服务,为公安中心工作提供更有力的支持和保障。本文主要对此进行了分析和描述,介绍了大数据的概念、平台架构和重点内容,为公安大数据应用提供借鉴。