2017年 第11期中国移动网络与信息安全专题 电信工程技术与标准化
大数据平台的敏感数据保护研究
李一平,王晨,包森成
(中国移动通信集团浙江有限公司,杭州 310016)
摘 要 本文首先界定了敏感数据的内容以及脱敏原理,概述了敏感数据的学术研究现状;进而对大数据平台中敏感数据的来源及其面临的安全性问题进行分析总结。提出了从大数据采集、存储、服务和应用4个层面进行敏感数描保护的基本思路,以及大数据平台敏感数据的安全管理策略。关键词 数据安全;数据脱敏;安全基线中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2017)11-0035-041 前言
随着信息化社会的飞速发展,大数据的相关应用越来越广泛,伴随的公民个人信息安全保护也被提升到了国家信息安全战略的高度。为此,全国常委会和工业和信息化部相继发布了《中华人民共和国网络安全法》和《电信和互联网用户个人信息保护规定》用于保障网络安全,维护网络空间主权和、社会公共利益,保护公民、法人和其他组织的合法权益。中国移动也下发了一系列大数据安全规范制度,要求加强大数据平台的安全保护能力。中国移动通信集团浙江有限公司(以下简称“浙江移动”)的大数据平台中存储了大量的数据及用户隐私信息,这些信息一旦泄露将对浙江移动造成巨大的负面社会影响和经济损失。随着大数据平台规模日益扩大,接入的应用系统数量越来越多,客户信息访问的接口、应用和途径也越来越多,亟须提高大数据平台本身的安全性、健壮性,加强安全防护能力,提升访问管控能力,收稿日期:2017-10-11从而提高客户的满意度和市场竞争能力。2 脱敏数据研究现状
敏感数据主要指当其被窃取、传播、不当使用、未经授权被他人存储与共享、以及非法数据价值挖掘后,可能会对国家、、企业和数据所有人造成严重侵害的数据。在各行业领域的研究和实践中,潘明等人针对公积金系统中不同类别的数据进行脱敏操作保证用户信息的安全[1]。为了防止度敏感数据的泄露,马晓亭等人提出了大数据平台度敏感数据的保护方法,确保图书馆敏感大数据安全和可控[2]。崔敏龙等人设计开发了一种银行业敏感数据脱敏系统,实现了数据脱敏申请、脱敏规则设置、脱敏处理、输出控制、脱敏效果分析等功能,系统测试表明,该数据脱敏平台达到了银行业客户数据脱敏目标,有效降低了敏感数据泄露风险[3]。刘明辉等人研究了云环境下敏感数据所面临的安全风险,分析了云环境下的敏感数据安全需求,在敏感数据35
2017年11月 第 11 期(第30卷 总第242期)月刊
电信工程技术与标准化 中国移动网络与信息安全专题分类分级的基础上给出了云环境下的敏感数据保护技术方案[4]。董新华等人通过分析敏感数据安全现状,提出了一个大数据平台敏感数据安全共享系统框架,涉及敏感数据的安全提交、存储、使用和销毁,研究了基于密文异构转化的代理重加密算法和基于虚拟机监控器的用户进程保护方法等关键技术,为系统功能的实现提供了支撑[5]。2017年 第11期3 大数据安全管控
浙江移动大数据平台日益扩大的规模使得安全基线检查工作任务与日俱增,平台中敏感数据资产的梳理,敏感数据访问控制的审计压力也越来越大,亟待提高大数据平台基线检查效率及自动化水平,实现敏感数据资产的可视化管理,增强敏感数据访问控制能力、审计告警等安全管控能力。大数据安全管控平台的工作模式于大数据平台本身,部署方式为网关集群方式,最少应部署两台服务器,通过负载均衡设备对外提供服务,整体拓扑如图1所示。大数据安全管控平台采用B/S架构(见图2),主要分为用户UI、核心功能层、接口层三层结构。用户UI主要提供用户配置管理人机交互界面,核心功能层主要分为数据安全模块和安全基线核查两大模图2 大数据安全管控平台功能架构图
块,接口层提供软件API接口信息,例如认证、权限、脱敏相关的API等接口。其中,核心功能层的数据安全管理模块主要提供数据安全保护功能,包含用户的认证授权,大数据平台敏感数据资产扫描识别管理,敏感数据资产的访问授权、脱敏规则配置、审计告警等功能。安全基线模块主要提供大数据平台组件的自动化基线检查功能。3.1 敏感数据识别管理敏感数据识别管理模块主要包括敏感信息扫描引擎、敏感数据发现策略管理、敏感信息标识及分级分类管理、敏感数据分布视图等。敏感信息扫描引擎通过对大数据平台数据仓库hive、NoSql数据库hbase的自动探测,抓取大数据平台中的不同数据;执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息。敏感数据发现策略管理是配置管理敏感数据的发现规则,支持正则表达式、关键字、自定义规则等,匹配规则支持多种典型的敏感数据检测算法,基本的有字符串匹配,分为单模匹配和多模匹配两类。单模匹配的经典算法主要包括:直接字符串比较、KMP等。对于多模匹配,需要重复扫描多次数据,效率较低,其经典算法主要有Aho-Corasick(AC)算法,Boyer-图1 整体部署拓扑图
Moore(BM)算法和Quick Search(QS)算法等。36
2017年11月 第 11 期(第30卷 总第242期)月刊2017年 第11期中国移动网络与信息安全专题 电信工程技术与标准化敏感数据标识基于敏感信息知识库的丰富程度以及敏感策略配置的准确性、精确性程度,可对敏感数据的类型、分级分类标准进行管理,提供识别不准确、识别错误情况的审核评估管理,可修改和删除识别到的敏感数据,并支持手工录入各类敏感数据的位置等信息。数据视图主要为敏感数据扫描引擎形成的敏感数据分布视图,以及根据应用/用户访问操作形成的访问告警视图等。3.2 访问授权脱敏管理协议解析语法解析脱敏规则匹配
图3 数据脱敏原理图
表1 数据脱敏基本流程
拦截解析用户、应用访问大数据组件网络流量,解析网络协议
基于应用层对访问大数据组件的语句进行语法进行分析
匹配针对用户、应用配置的数据库、表、字段/列的脱敏算法规则
3.2.1 敏感数据脱敏原理数据脱敏与纯粹的数据加密不同,脱敏是将数据通过一定的算法变成另一种数据样式,而这种样式是可读的,并且与元数据是属于同一类。数据脱敏原理如图3所示。脱敏功能可实现对数据库层级用户的脱敏策略配置。数据脱敏模块位于应用程序和大数据平台之间,保护存储在大数据平台中的敏感数据。脱敏模块截取发送到大数据平台的访问请求,并送规则引擎进行处理,实现敏感数据动态脱敏。脱敏模块提供配置管理工具,管理敏感数据脱敏的策略配置并建立连接和安全规则。脱敏结果输出
脱敏规则应用对匹配到数据库表字段或列应用脱敏算法处理
根据配置的脱敏算法将脱敏后的数据输出给用
户、应用,保证原始数据的不可见
的操作权限主要有创建、修改、删除、插入数据、删除数据、查询数据等;hive的授权对象针对库、表、列,授权的操作权限主要有创建、修改、删除、查询、插入数据、删除数据等。3.3 审计告警审计告警依据应用/用户的角色权限及访问操作,实时监控各种应用/用户访问、操作、异常访问、拒绝访问等,通过对用户的异常访问行为、操作行为提供告警,发现敏感数据违规使用的行为。3.4 安全基线3.2.2 数据脱敏方法事前需要配置对于某个/组用户、某一数据库的表、列,确认采用何种脱敏方式。当用户的SQL/HQL指令在被大数据平台数据仓库解析执行之前,会首先进行脱敏判断,如果对该用户来说,其访问的某些数据被配置了脱敏方式,那么数据仓库仅会将脱敏后的数据返回给用户,从而保证了原始数据对用户的不可见。基本流程如表1所示。3.4.1 大数据构架自动识别自动发现包含两方面,一是大数据集群的节点主机IP信息自动获取,从而获取到构成整个大数据集群的节点主机数量、主机IP、主机名信息,二是自动发现识别大数据集群各个节点主机上的大数据组件,了解大数据集群中大数据组件的分布部署情况,为后续的基线检查模板自动匹配提供必要的支撑信息。3.2.3 敏感数据的细粒度授权管理细粒度授权是为账号赋予大数据平台中存储数据的操作权限,可从不同的数据粒度为账号赋予可执行的操作,但必须处于当前数据粒度支持的范围内。hive、Hbase等不同组件的授权的粒度管控范围如下:hbase授权对象针对Namespace、表、列簇,授权37
2017年11月 第 11 期(第30卷 总第242期)月刊
电信工程技术与标准化 中国移动网络与信息安全专题3.4.2 大数据基线模板自动匹配大数据安全基线软件在执行基线任务时,无需用户选择大数据组件的安全基线模板,软件会根据组件识别的信息,自动查找与之匹配大数据组件模板进行安全基线检查,减少人工配置干预。2017年 第11期低下,而且具有较长的滞后性。而使用自动化基线检查以及扫描识别和脱敏处理的方式,根据投入运算处理资源的不同可将识别时间缩短至数天到数小时,且滞后性较低。3.4.3 无人值守安全基线检查用户可根据需要设定大数据平台基线的检查方式、检查周期等,一次设置完成后即可开启无人值守式安全基线检查,用户只需要定期登录系统导出相关报表。5 结束语
大数据是每个企业的核心竞争力,快速高效的大数据处理能力对业务发展和竞争力提升起到巨大的促进作用。大数据平台是整个大数据业务的基石,基石的稳固4 效益及优越性
4.1 节省大量业务应用改造成本大数据平台采用透明网关部署模式,无需对原有的网络结构、业务系统进行改造以节省大量改造成本。以500个节点的大数据集群接入100个业务系统的应用规模为例,假设原有单业务系统平均改造成本在30万左右,仅此一项预计可节省经费3000万元。4.2 节省基线检查和数据识别人力成本大数据平台的节点众多、组件分布分散,敏感数据类型多、范围广、数据量巨大,如果单纯依靠人工手段开展基线检查和敏感数据识别,不仅工作量巨大、效率安全可靠直接影响大数据业务的顺利开展。参考文献[1] 潘明. 数据脱敏在公积金系统中的运用[J]. 现代经济信息,
2015,(17):119.
[2] 马晓亭. 图书馆大数据平台度敏感数据保护研究[J]. 图
书馆, 2017,(02):70-75.
[3] 崔敏龙. 商业秘密保护中数据脱敏技术研究[D]. 西安:西安
电子科技大学, 2015.
[4] 刘明辉, 张尼, 张云勇, 等. 云环境下的敏感数据保护技术
研究[J]. 电信科学,2014,30(11):2-8.
[5] 董新华, 李瑞轩, 何亨, 等. 一种大数据平台敏感数据安全
共享的框架[J]. 科技导报, 2014,32(34):47-52.
Research on sensitive data protection of big data platform
LI Yi-ping, WANG Chen, BAO Sen-cheng
(China Mobile Group Zhejiang Co., Ltd., Hangzhou 310016, China)Abstract Firstly, the content of sensitive data and the principle of desensitization are defi ned, and the academic research status of sensitive data is summarized. Then, the source of sensitive data and the safety problem of large data platform are analyzed and summarized. This paper puts forward the basic idea of sensitive digital data protection from four aspects: large data acquisition, storage, service and application, and the security management strategy of large data platform sensitive data.Keywords data security; data desensitization; safety baselines38
2017年11月 第 11 期(第30卷 总第242期)月刊