运营商大数据平台敏感数据管控机制及实现
随着在各行各业的不断应用和创新,大数据为社会创造了越来越多的价值。在大数据平台的建设和大数据应用过程中,数据安全问题也愈发重要。
根据《中华人民共和国网络安全法》的总体要求,运营商行业内对大数据平台和应用所涉及的敏感数据管理也提出了具体规范,可以概括为以下“三不”原则。
“数据不涉隐私”:通过敏感数据加密、脱敏、数字水印、合作实验区隔离、权限管理等技术手段,使任何人无法直接访问敏感数据。
“原始数据不出系统”:需求方对数据的处理应在大数据平台系统内进行,基础数据和中间计算数据严禁导出大数据系统。结果数据导出应审查与需求的符合度,满足“最小信息量”限制,且不可通过合并关联等手段恢复出敏感数据。输出数据需经审核,不得出售数据源材料及用户敏感数据。
“系统不出内部”:大数据平台需要部署在内部自有环境,不得部署在其他外部环境中。企业需加强平台自身的安全防控能力,全面覆盖安全风险,尤其是开源软件安全能力的增强。
按照上述要求,运营商需要研究本行业的大数据敏感数据管控机制,对关键平台大数据应用实施改造,提升大数据平台数据安全防护能力。
大数据平台敏感数据管控机制
目前运营商CRM体系中包含敏感信息的系统主要有计费系统、营业系统和经营分析系统,对涉及的用户信息(如姓名、身份证号码、住址等)基本已经实现敏感信息生产治理、敏感信息稽核、涉敏日志上报等管控。大数据平台和应用中保留了CRM的敏感信息数据,服务内容数据、服务记录和日志位置数据等还需要进一步进行安全改造。
为了做好大数据平台敏感数据管控,需要对涉及的全量敏感信息进行分责、分级、分类管控,总体上可以分为如表1所示的4个级别。
表1 运营商大数据敏感信息分层分级表
确定管控原则之后,需要进一步确定数据加密方案。以用户手机号码为例,此类信息属于上述敏感信息分级的第3级,在实施时主要有4种加密方案可供选择(如表2所示)。
表2 敏感信息加密方案对比
方案一和方案二虽然加密安全性占优势,但运算资源需求较大且投资额较大,因此运营商应重点在方案三和方案四之间选择。
如表3所示,为了对比方案三和方案四的执行效率,选取大数据应用中常见的两种场景:日志分析应用和号段分析应用,开启同等规模的样例任务,记录执行过程中的map个数、reduce个数和执行时间。由于方案四涉及额外的数据关联计算,执行时间明显较长。
表3 大数据敏感信息加密应用场景两种方案执行效率对比
综合考虑上述方案优缺点之后,在符合加密安全性要求基础上,确定采用手机号码字段的后四位加密方案,这是投入产出比相对较优的方案。采用此方案在安全性和效率方面还有如下优势:在安全性方面,密码本集中统一动态管理,而且运算过程不涉及解密,数据输出时统一解密管理;在改造工作量方面,号码加密只是对后四位进行加密,仅在输出时进行解密,不影响平台内的关联计算和基于号段等的场景逻辑;在数据时效性方面,开展实时营销、信息服务时,采用号码加密只是在最终触达前解密即可,对响应速度影响不大。
大数据平台敏感数据管控机制的实现
从整体上看,大数据平台安全机制包括6个层面,主要有门户层、数据开放层、数据访问层、数据存储层、数据采集层、集群安全建设等综合的管控内容(如图1所示)。
图1 运营商大数据平台安全体系
大数据敏感数据管控平台核心架构如图2所示。建立敏感数据管控平台,首先,在采集层完成对敏感数据的加密;其次,在开放层通过应用的适配,及数据输出接口能力平台的改造,实现外部数据的访问交互;再次,通过运营管控完成数据导出的权限管理并生成日志记录;最后,通过敏感数据定义、加密管理、加密日志、数据稽核等完成对数据加密的管理。
图2 大数据敏感数据管控平台核心架构
建设大数据敏感数据管控平台,主要需要完成以下3个方面工作:一是数据采集接入,在数据采集层进行加密处理和传输,对实时接入和离线接入流程进行改造,保障原始数据的安全性;二是大数据加密管控,包含数据加密解密的管理以及数据安全系统的功能;三是相关平台和应用改造,对能力开发平台及相关应用进行对应的改造,满足大数据平台开发和数据处理的使用场景。
数据采集接入
采集接入改造主要应用于B域定时数据加密、文件数据加密、流式数据加密的大数据平台存储交换。
B域定时数据加密:通过数据采集交换加密后存储到大数据平台和Gbase平台,通过审批解密后可使用;文件数据加密主要用于4G日志留存,考虑到较流式数据而言数据量较小,采用SPARK离线加密并落入HDFS中;流式数据加密是将原始数据抽取到接口机以后,一部分以LIB库的方式对号码进行加密并落入HDFS,一部分转入KAFKA中供各种实时应用使用。
大数据加密管控
通过数据加密解密管理中的权限管理、加密解密日志管理、加密解密管理等实现了对大数据平台加密解密整体流程的把控,对加密解密的各个作业和各个环节做到权限可控、日志完整可查,能够为相关审计提供相应数据。并且对以后新接入大数据平台的应用进行加密有很好的管理作用,主要包括以下3个方面功能。
●权限管理
对大数据平台各个作业是否需要加密、哪些场景需要加密以及加密数据的管理进行权限管控。
基本信息记录:记录该作业的用途、需求提出人等信息。上线审批:管理员了解实际用途、数据源、数据流向后进行审批。权限控制:解密后的数据只有管理员可以删除。
●日志管理
对大数据平台加密解密过程进行日志记录,保障加解密全程有据可查,为审计和检查提供相关记录。
运行信息记录:完整记录解密组件的执行时间、日志等信息。组件信息备份:修改作业组件配置信息时,备份之前的组件信息。日志备份:将解密后的数据文件存放到备份目录。
●加密解密管理
对加密解密过程中需要的密码本进行管理,保障密码本的安全,对加密数据进行稽核,保障数据加密的准确性和完整性。
加密算法:为了实现“敏感信息扫描程序”的执行,需要将存量数据中的手机号码通过加密消除特征信息,这样扫描程序才能快速识别出未加密的手机号码信息。采用“后四位替换”的方式进行加密,即对后四位号码信息进行加密,加密采用密码本的方式,将后四位号码信息映射成对应的字母编码。
密码本管理:电子密码本对内容进行AES加密,只在运算时解密,并通过设置权限及相应的管理制度进行安全防护。使用电子密码本方式进行加密时,必须考虑电子密码本的绝对安全性,一旦电子密码本泄露,意味着号码对应关系全部失去,手机号码数据将全部泄密。
加密解密管理主要从电子密码本的存储安全、使用安全、人员安全3个方面考虑。在存储安全方面,将密码本内容进行AES加密,平时加密存储,只在程序运算时载入内存进行解密,运算后内存中密码本程序自动清理。在使用安全方面,建立密码本使用权限管控机制,密码本只能在加密时使用,不可用于其它用途。原则上只允许应用访问密文库,个别应用数据处理过程可使用缓存库,使用完之后,结果数据同步到密文库,缓存库运算数据销毁;后续只能使用密文库,杜绝某个应用交叉访问缓存库与密文库。在人员安全方面,密码本程序使用人只能为内部特定人员,且须签署保密协议。缓存库使用人员必须经过严格权限审批,且使用时长也需审批。密文库结果数据同步人员不能与明文库人员一致。
数据加密监控及稽核:为了对大数据平台的加密过程进行全面监控,使加密作业失败后能够及时通知管理员,保障大数据平台所有敏感数据均能按照规划完成加密,应通过综合展示、监控短信发送、监控实时预警、验证报告、后台管理等功能,实现对大数据平台加密的全面监控。对加密数据及加密日志等相关过程进行稽核。
通过建立大数据平台敏感数据管控机制,可以满足相关大数据安全规范和大数据安全审计的要求,又能够在日常运维等场景下保障大数据系统中用户服务记录和日志、位置信息等数据使用安全,实现大数据安全能力的提升。(信息来源:通信世界网)