今天的推送很正点正经。
脱脱脱……
你以为脱啥?
收起你淫X的小眼神。
我们要脱的东西很高级
·
·
·
Data Masking
数据脱敏,是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术。
其中静态脱敏(通常在非生产数据库中防止静态数据的滥用)也就是当前世平脱敏系统的运行机制。
脱敏这件事似乎并不复杂,三言两语间各位看官也能知其所以,毕竟要做到这件事实在是太简单了——
拿到一份文档,双击、全选、键入“xxx”、保存、关闭、收工,你就能相当完美地完成本次的脱敏工作。
然而作为一家 有追求 有理想 有野心的 优雅的 绅士的 高科技公司,这种让人一丝不挂的粗暴脱法我们是完全不能接受的,采用极端手段来达到某种极端的效果并不是世平做产品做安全的理念。
在产品和服务品质面前,我们
随机/固定字符替换、简单位移、字段标星等常规的脱敏手段确实将数据的敏感性去除了,但也犯了数据处理中最致命的错误——破坏了数据的原始可用性。
信息安全的三要素,可用性、完整性、保密性,从任何角度来说,都是一个微妙的平衡、缺一不可。
因此,我们就聊聊到底应该怎么脱。
为何而脱
人在江湖,就得守江湖规矩。
今年5月,欧洲的江湖出台GDPR(通用数据保护条例),出台的目的就是保护公民的个人信息不被非法使用,其对个人敏感数据的类别定义为:
种族或民族出身
政治观点
宗教/哲学信仰
工会成员身份
涉及健康、性生活或性取向的数据
基因数据(新)
……
对于上述数据,任何此类数据的持有机构都不能擅自发布、使用和处理。
其中特别提到,对于个人照片的使用,“仅在通过特定技术方法对照片进行处理,使其能够识别或认证特定自然人时,照片才被认为是生物识别数据。”也就是说,此类个人数据需要精确对应到个人,才被认定为个人数据。
因此当我们在某些场景(如数据分析、统计或定向发布)需要使用这类数据时,如何合法和合规地去利用它们呢?答案就是“脱”,脱去数据和个人的关联性。
再看国内,有《网络安全法》、《公共及商用服务信息系统个人信息保护指南》以及与金融业密切相关的《商业银行信息科技风险管理指引》先后出台,国家对于个人信息的保护愿景也提升到了历史最高点。
特别在金融(银行、证券等)行业,数据脱敏已经被明文写入相关规划和管理条例当中,成为行业数据安全“刚需”。
银行业数据脱敏相关条例
大家都看到啦,江湖规矩,脱脱益善。
脱什么
所谓脱敏,脱的是数据的敏感性,从保护数据可用性角度出发,我们所做的本质上是脱去当前数据和数据主体的关联性或数据本身的真实性即可。
因此很多常规的脱敏手段都能够达到此类效果,如前文提到的,随机/固定字符替换、简单位移、字段标星等等。
下图能够非常清楚的说明常规的数据脱敏手段所能达到的使用效果:
数据脱敏效果展示
从上图中我们能够看到,原始的用户数据经过处理后所得到的变形数据已经不能反映出用户的原始信息。
换言之,我们不能通过得到的变形数据来精确定位到真实的用户个人,因此数据的持有者就能够根据业务需求自行处理,使用时也不必再担心触犯个人信息的相关保护条例。
脱什么,另一个层面,我们还应关注哪些数据是我们脱敏的目标对象,经过世平信息多年的行业数据保护经验积累,我们建议用户从以下几个类型的数据着手关注数据敏感性保护:
姓名
身份证
手机/座机
社保信息
银行卡号
交易信息
个人卫生信息
中文地址
……
做到上述数据的敏感性保护,我们基本就能降低这些关键数据的泄露风险,从安全角度来看,我们的脱敏工作也就到此为止。
然而,话题并没有结束。
不脱什么
“犹抱琵琶半遮面”很美,我们不妨想象一下,当琵琶完全遮住了脸,或者完全不遮脸时,整个画面又是如何?
不难发现,“遮”的度至关重要。
“脱”也同理,所以我们还要聊聊度的问题,也就是在脱敏过程中,哪些是绝对不能脱的。
常规的脱敏手段从安全层面来说完全没有问题,但大家都不会认同这是一个完美的解决方案。很显然,它破坏了数据的可用性,这个数据都不能被继续利用了,我们做脱敏的意义难道仅仅是为了安全吗?
如果纯粹为了安全,不如把数据直接删除来得可靠。
在一些数据利用场景中我们发现,即便是做数据脱敏,某些特性也必须保留,如数据的原始属性。举个例子,“姓名”这一数据经过脱敏后,还是应该保留姓名字符的组合规律。
如此注重数据质量的保留,就需要引入数据治理中对于数据清洗的概念,如下图所示:
数据清洗架构
大数据时代,数据集中已成为趋势,得到标准化的高质量的数据是数据治理的最终目标,它是数据利用前最为重要的一个环节。
世平作为一家以数据安全防护和数据安全治理为己任的公司,我们认为脱敏这一数据处理环节也应结合当下数据利用的趋势,以更精准更贴合数据利用战略目标的方式来完成数据脱敏这一看似简单的数据安全环节。
所以,如果处理的结果最终影响数据的再度利用,我们不脱。
脱与不脱,山人自有妙计
针对这样的数据脱敏理念,世平信息的脱敏系统提供了能够同时满足用户数据安全和数据利用需求的数据脱敏方案:
世平数据脱敏架构
根据实际场景定制脱敏模型
针对不同的用户行业制定定制化敏感数据发现规则,既然要脱,脱哪儿必须明确!
操作简单,便于运维管理部门维护
脱敏数据准确、高效,提高测试数据质量。
脱敏方式丰富,脱敏算法可自定义
内置多种脱敏算法,可根据不同场景选择对应的脱敏算法,自由调节脱敏后数据关于安全性和可用性的平衡,满足多场景应用需求。
脱敏结果报表可视
内置丰富审计要素,不仅能够了解任务的运行状况、详细错误信息,对于脱敏数据还提供前后对比展示,方便用户把握脱敏质量。
输出精准
支持库到库、库到文件、文件到库、文件到文件形式的脱敏,同时支持异构数据库的相互加载,完全覆盖用户使用场景。
数据脱敏过程不落地
当操作的对象为敏感数据时,任何第三方的系统都不能擅自存放用户数据,世平脱敏的内存处理机制能够最大程度保证用户数据的安全性,防止出现二次泄露。