数据脱敏是指从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程。既能够保障数据中的敏感数据不被泄露又能保证数据可用性的特性,使得数据脱敏技术成为解决数据安全与数据经济发展的重要工具。
一、数据脱敏技术处理过程及方法
1.数据脱敏技术处理过程
数据脱敏技术对数据的处理基本经过5个过程,分别是元数据识别、脱敏数据识别、数据脱敏方案制定、任务执行及效果比对。
◎元数据识别:数据脱敏平台将脱敏文本读入,脱敏平台可设置读入数据的行数,默认文件头为格式(txt/csv/xml/python文本),用户可自行设置间隔符号;同时若文本文件中默认不包含元数据头文件,用户可自行设置元数据名称与格式。
◎脱敏数据识别:经过元数据识别/设置后,文本脱敏的敏感数据识别与数据库敏感数据识别是相同的,均按照元数据描述及抽样数据本身特点,使用系统的敏感数据扫描可识别出疑似敏感数据。
◎定义脱敏方案:在疑似敏感数据基础上,用户根据实际需求对需要脱敏的数据、脱敏规则进行设置,形成文本文件的脱敏方案。
◎脱敏执行:设置脱敏后数据的目标(需支持到文件、到库),脱敏执行过程将数据抽取、处理、装载一次性完成。
◎脱敏后对比:脱敏后数据用户需在界面可见脱敏前后对比,对比的内容包括:脱敏前数据条数、脱敏后数据条数等。
2. 数据脱敏方法
数据脱敏技术的目的是通过一定方法消除原始环境数据中的敏感信息,数据脱敏的数据处理方法是通过对指定的敏感数据进行编辑,使得敏感数据不再含有敏感内容,从而达到使人或机器无法获取敏感数据的敏感意义的目的。在数据脱敏技术中,常用的方法有以下5种。
◎仿真:是根据敏感数据的原始内容生成符合原始数据编码和校验规则的新数据,使用相同含义的数据替换原有的敏感数据,例如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。仿真算法能够保证脱敏后数据的业务属性和关联关系,从而具备较好的可用性。
◎数据替换:用某种规律字符对敏感内容进行替换,从而破坏数据的可读性,并不保留原有语义和格式,例如特殊字符、随机字符、固定值字符等。
◎加密:通过加密算法(包括国密算法)进行加密。例如Hash(密码算法)算法是指对于完整的数据进行Hash加密,使数据不可读。
◎数据截取:数据截取术是指对原始数据选取部分内容进行截断。
◎数据混淆:混淆算法是将敏感数据的内容进行无规则打乱,从而在隐藏敏感数据的同时能够保持原始数据的组成方式。
二、数据脱敏技术的应用
随着互联网、云计算等信息技术与通信技术的迅猛发展,社会逐步进入了数据时代。海量数据在各种信息系统上被存储和处理,其中包含大量有价值的敏感数据。目前,大量敏感数据都存储在政府、企业或机构的数据平台中,基于当前的法律法规,数据在进行采集、传输、交换和共享的过程中要采用必要的手段防止数据泄露,保证数据安全。数据脱敏技术主要的目的是在数据共享的过程中保证数据安全,因此,数据脱敏技术也主要应用于数据共享的场景中,数据脱敏技术主要应用于以下领域。
政务行业:公安、工商、税务、社保等政府及公共事业部门,采集了大量的公民个人信息及企业敏感信息。国务院《促进大数据发展行动纲要》的要求,推动政府部门数据共享和公共数据资源开放。对于政府部门的数据共享仍然存在着不同敏感程度的政府部门应获得不同数据访问的权限,例如公安部门公民部分个人敏感信息是不能直接与其他政府部门进行共享的。公共数据资源也不能直接简单对公众开放。以上信息需要通过数据脱敏处理,将敏感部分进行不可逆的处理,并降低数据在共享过程中被重新聚合分析的可能性。
金融行业:银监会要求测试中如需使用生产数据,应对相应数据进行脱敏、变形处理。通过部署脱敏产品,在生产数据交付到测试环境前进行脱敏,既能满足相关规范要求,又能有效防止敏感数据泄露。
电信行业:运营商内部存储了大量的客户信息,而日常运维工作往往都是由第三方外包人员负责。为防止运维人员恶意查询和下载客户敏感信息,通过部署数据脱敏产品,对数据库查询返回的结果进行敏感数据遮盖,防止数据泄露。
医疗行业:医院系统中存储大量患者隐私信息,这些信息对其他行业具有“利用”的价值。黑产从业人员可通过收买医院业务人员、信息中心人员、第三方维护和开发人员盗取患者隐私数据。通过部署数据脱敏产品,对患者敏感数据进行脱敏,既能满足国家对医疗数据隐私保护的基准要求,又能对用户隐私数据的有效保护,维护和提升医疗卫生领域的形象和公信力。
能源行业:随着电力企业信息化推进,电力行业内部不同部门甚至是跨组织、跨区域间的电力数据共享场景越来越普遍,要保证共享场景中的数据安全,其中涉及的关键技术就是数据脱敏技术。
未来,越来越多的行业将采集数据,利用大数据技术提高产业效率,从而推动产业升级。数据量将进一步汇聚,规模将以指数级增长,数据脱敏技术的应用场景将扩展到国民经济的各个领域,随着需求的增长和多样化,数据脱敏技术也将得到长足的发展。