一、人工智能
人工智能是一门以数学为基础,涉及到计算机科学、生物学、心理学、语言学和哲学等的交叉类学科。
维基百科
人工智能就是机器展现出的“智能”,即只要是某种机器,具有某种或某些“智能”的特征表现,都应该算作“人工智能”。人工智能三大核心要素:算法、算力、数据。
根据中国电子技术标准化研究院的《人工智能标准化白皮书》(2018版)(下载点击 阅读原文)阐述,人工智能领域关键技术包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等。
其实,人工智能已发展了半个多世纪,如今随着计算能力飞速发展及硬件成本的不断降低促使用人工智能发展到了第三波浪潮。
2017年3月5日,“人工智能”正式写入2017政府工作报告,无人驾驶、个人助理、金融、电商、医疗、教育等各大领域大量应用了人工智能。预计2030年全球将达7万亿美元规模的市场。
人工智能和机器学习有望彻底改变很多行业,但它们也带来了重大安全风险。
比如“算法黑箱”或算法不透明性将引发算法安全管理困境,可能成为“隐形”恶意武器,操控决策致使算法权力诱导个人行为、影响政府决策和司法判决。
剑桥分析助力特朗普总统竞选、携程差异化定价杀熟等一个个案例呈现在我们面前。
除了算法、算力外,另一个核心因素是数据。实现人工智能有两个阶段,即准备数据与训练模型。数据准备工作量占比达 70% 以上,但更重要的数据背后的人工,即数据预处理、模型选择与参数调整。
二、数据安全治理
目前数据已成为资产、能源和基础设施的关键要素,数据安全市场呈井喷之势。
据中商产业研究院分析,2016-2020年中国数据安全市场规模年增速30%以上,预计2020年市场规模将超70亿元。
理解“数据安全保护” 的内涵,一般可以分为3个阶梯式层次:数据安全、个人数据保护、国家层面的数据保护。
数据安全可以理解为信息或信息系统免受未经授权的访问、使用、披露、破坏、修改、销毁等。
-
数据安全=保密性+完整性+可用性
-
个人数据保护 = 数据安全 + 个人数据自决权利 + 数据控制者等相关方满足个人数据自决权利的义务
-
国家层面的数据保护 = 数据安全 + 数据支配权 + 防止敏感数据遭恶意使用对国家安全的威胁
目前数据安全面临的挑战如下:
-
新的数据和隐私保护的合规要求;
-
网络攻击造成的数据泄露破坏了组织声誉和客户信任;
-
混合IT架构下缺乏数据安全策略;
-
数据安全和身份管理产品不会整合甚至不共享通用策略。
著名的咨询与研究机构Gartner在2018年5月发布了数据安全治理(Data Security Governance)框架,提供了一个如何通过数据保护和隐私声明的平衡方法来实现实际的安全性。
数据安全治理不仅仅是工具或产品的解决方案,而是基于战略、业务、应用、人员的安全和风险管理的有机整体,从管理制度到工具支撑,从上层管理架构到下层技术实现,采取的一系列适合组织数据生命周期的措施。
Gartner指出了从数据的加密、监控审计、防泄露、用户身份证、用户行为等环节入手是一个错误的实践。
数据安全治理的最佳实践是从考虑组织的经营战略与策略、面临的内外合规要求、整体的IT策略以及组织的安全风险容忍度开始,然后是对数据进行分级分类,再者是对不同级别的数据实行合理的安全手段。
我们可以设计从“安全监控评估、安全技术加固、安全治理服务”三位一体的数据安全保障体系。
同时,依据Gartner DSG的理念,在数据的全生命周期中,采用先从数据安全治理咨询为入口的阶梯式数据安全治理思路。详细步骤如下图所示:
注:红色字体可大量应用人工智能技术
三、人工智能应用于数据安全治理
人工智能在机器学习和自然语言处理方面的应用一直受到业界的关注。
依托人工智能引擎,通过对业务数据的获取、清洗、语义计算、数据挖掘、机器学习、知识图谱、认知计算等技术,将快速促进数据安全保障体系完善。
应用机器学习、自然语言处理、和文本聚类分类技术,能对数据进行基于内容的实时精准分类分级,而数据的分类分级是数据安全治理的核心环节。
数据分类引擎已成功应用在邮件内容过滤、保密文件管理、知识挖掘、情报分析、反欺诈、电子发现和归档、数据防泄露等领域。利用人工智能可实现对数据的“智”、“准”、“深”的识别、控制和价值挖掘。
然而,人工智能需要海量的数据,人工智能技术的进步取决于各种来源数据的可用性,如何确保这些数据的安全性与保证用户数据的隐私性又是一个相生相伴的问题……