导读:近年因电子邮件安全问题引起的恶性网络事件影响范围越来越广、造成后果越来越恶劣。传统邮件监测技术无法应对高级持续性威胁。基于此,提出新一代智能恶意邮件监测与溯源的系统框架,将多元行为分析、威胁情报溯源、动态沙箱检测、深度样本意图分析等智能化威胁感知和邮件监测技术应用在恶意邮件监测与溯源系统中。通过人工智能技术将几百种基于知识工程的邮件安全元素与威胁、业务模型关联建模,使系统具备更智能的威胁感知能力和更准确的恶意邮件检测率。同时,通过邮件样本溯源技术,系统可以进一步溯源恶意邮件的来源和相关的黑客组织。
恶意邮件智能监测与溯源技术研究
魏海宇,刘钰
(北京中睿天下信息技术有限公司,北京 100091)
关键词:恶意邮件;智能监测;溯源
中图分类号:TP915
文献标识码:A
引用格式:魏海宇,刘钰.恶意邮件智能监测与溯源技术研究[J].信息技术与网络安全,2019,38(1):24-29.
0 引言
当前互联网技术不断发展,网络攻击手段和网络安全威胁不断升级。电子邮件是高级网络攻击和网络犯罪发生的重灾区。高级持续性威胁(Advanced Persistent Threat,APT)攻击、账号接管(Account TakeOver,ATO)攻击、高级商业邮件诈骗(Business Email Compromise,BEC)攻击不断涌现,传统邮件安全防护体系远远不能抵御日益复杂化的网络攻击,面临新的挑战。
2015年12月23日,乌克兰至少三个区域的电力系统遭到网络攻击,造成大面积停电,电力中断3~6小时,约140万人受到影响[1]。分析发现,事件起因是:电力公司员工点击了带有病毒的恶意邮件,登录证书被黑客偷取,黑客利用证书实施网络攻击,获取了乌克兰电站系统控制权,由此制造了第一例网络攻击造成的大停电事件[2]。无独有偶,2017年4月美国媒体报道两个美国科技巨头谷歌和Facebook两年内被骗1亿美元[3],起诉书披露攻击者通过伪造电子邮件地址和内容向这两家公司的财务部门发送诈骗邮件,并持续获利。除此之外,随着APT攻击的不断曝光,网络邮件钓鱼攻击是APT组织实施网络犯罪活动时最常用攻击手段。电子邮件安全不容忽视。
从安全角度,可将邮件过滤分为无害垃圾邮件过滤和有害恶意邮件过滤。无害垃圾邮件包括:(1)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件[4];(2)含有欺诈信息的电子邮件。无害垃圾邮件本身不包含恶意程序。有害恶意邮件指带有恶意链接和攻击程序的电子邮件,包括:(1)携带病毒木马程序的恶意电子邮件(隐藏在附件);(2)含有钓鱼链接的诱骗电子邮件(隐藏在正文或附件)。电子邮件攻击的多样性,决定了邮件安全防护手段的多元化。
从技术发展看,邮件安全防护技术分为四代。第一代垃圾邮件网关对无害垃圾邮件进行过滤,以邮件来源、邮件头部数据和内容过滤为主要技术手段,通过静态特征识别和关键字匹配技术识别垃圾邮件。二十世纪九十年代第一例病毒邮件出现后,能够识别有害恶意程序的病毒邮件网关成为邮件安全防护的主流技术;第二代病毒邮件网关通过样本比对、脚本分析、附件检查技术进行恶意邮件的分析和识别;随着邮件应用的日益广泛,钓鱼攻击者开始使用电子邮件作为URL钓鱼、账号密码欺骗的载体,第三代邮件安全网关应运而生。第三代邮件安全网关在前两代来源过滤、内容过滤、特征识别、恶意程序监测技术基础上,增加了多样化的图片分析、URL监测和行为分析技术,能够通过分析邮件内容、链接、附件、图片,识别邮件恶意攻击意图和行为。
近几年,针对电子邮件的攻击,技术手段越来越专业化。APT攻击、ATO攻击、BEC攻击、免杀木马病毒和0DAY漏洞利用等新型攻击手段层出不穷,传统邮件过滤技术很难检测,为此本文设计实现了新一代智能恶意邮件监测与溯源系统。系统融合了邮件的动态分析、沙箱运行、行为建模、行为意图分析、威胁情报分析、大数据分析建模等智能化监测手段进行电子邮件的深度监测,能够识别、溯源复杂的电子邮件攻击行为。
1 体系架构
新型电子邮件攻击手段多样化、技术复杂化、攻击智能化,要求建立防护严密、过滤高效、智能化的电子邮件监测系统,为此设计了基于流量的智能垃圾邮件安全监测与溯源系统。体系结构上采用层次化过滤设计,在保证监测准确率基础上,提高了单封邮件的处理速度。技术上采用行为分析技术提高威胁监测率,特别是提高APT攻击、ATO攻击和BEC攻击等复杂攻击的识别能力。除此之外还建立了威胁情报溯源云中心,一是进行攻击者来源和身份背景分析,实现攻击溯源,降低用户损失;二是积累样本资源,通过信息自动化反馈机制,不断提高系统威胁感知能力。
1.1 总体设计
该方案包含三级过滤引擎和一个综合处理引擎,每级过滤引擎执行不同监测功能,越高级的过滤引擎运算和处理过程越复杂。过滤引擎间的样本数据从低级到高级逐级传递,传递原则是:一旦邮件样本在某级过滤引擎处理中判定为垃圾邮件则过滤结束,不再向高级过滤引擎传递。减少样本投递次数和无效运算,降低资源和时间消耗。恶意邮件监测与溯源系统的体系架构如图1所示。
1.2 过滤引擎设计
四级引擎设计是系统保证垃圾邮件的过滤精准度和平衡时间消耗的关键设计。通过不同类型过滤引擎的有序串联,一是能够对邮件进行最全面的分析,满足了系统的技术先进性要求;二是不过度增加系统负担,满足了系统在处理速度和处理时间上的时效性要求。
第一级过滤引擎定义为快速过滤引擎,能够通过规则匹配快速判断邮件属性。主要基于协议会话相关技术进行过滤,设计上支持SMTP等协议分析和邮件来源分析,进行SMTP等协议项检查和SPF检查,通过威胁情报溯源云中心鉴定是否为恶意邮件并查明相关背景。
第二级过滤引擎是进行邮件内容过滤的核心过滤引擎,支持对邮件的正文文本、链接地址和邮件附件进行静、动态检查和过滤。设计上过滤引擎将来源数据分类为文本、链接、附件,不同类型数据使用不同监测方法。文本数据使用静态分析引擎进行分词、降维、语义分析处理,通过统计学习算法分类邮件。链接通过URL链接识别技术进行鉴定。核心监测器包括静态、运行态和回溯监测引擎。在静态过滤引擎不能判断邮件属性时,通过运行态引擎的动态监测沙箱对邮件做进一步分析。
第三级过滤引擎进行基于行为的过滤,以时序关系、因果关系和基因关系为基础建立行为分析模型。完成两类功能:一是当前邮件的行为分析,二是历史关联数据的行为分析。当前邮件的行为分析,重点分析当前邮件中程序、文档点击后的操作结果,通过可疑行为分析、基因关联分析等手段判定邮件是否具有恶意邮件特征。历史关联数据的行为分析,侧重历史数据的融合分析。系统维护一定时间段内的邮件摘要信息,当进行历史关联数据行为分析时,查询与当前邮件存在关联关系的邮件信息,通过关系模型关联数据,综合判断邮件是否为恶意邮件。
第四级综合过滤引擎则融入人工智能技术,将前三个过滤引擎获取的数据进行多维度的拆分组合,将所有的安全监测点融入到训练模型中。比如邮件头、内容、URL、附件等每种都细化出几百种安全元素,将不断监测到的新型威胁融入到模型中。此外,针对不同行业特点将不同的业务模型融入到邮件安全监测中,使过滤引擎具备更高的威胁监测率和更低的误报率。
2 关键技术
2.1 协议会话信息监测
除了传统的反垃圾邮件监测手段,如SPF监测、邮件账号合法性监测、IP域名黑名单监测等,在邮件协议会话层还可以监测如下三种行为:暴力破解邮箱账号密码、弱口令、异常登录。这三种行为在APT攻击中常常作为第一步,攻击者在获取账号的用户名密码后,利用该账号的可信任关系,向常用联系人发送威胁邮件,并保持对账号的长期监控。
暴力破解邮箱账号密码的监测,通过对登录协议的报文分析,结合邮件账号登录时间、地点、频率等因素综合分析,建立监测模型,实现监测功能。一是大量弱密码字典对邮箱账号进行弱密码匹配,并提示用户;二是建立异常登录模型,监测邮箱账户的异常登录行为,比如不同IP频繁登录一个邮箱,一个IP频繁登录多个邮箱,都视为行为异常。
2.2 邮件头信息监测
邮件消息头中的From、To、Sender、Received、Subject、Return-Path、Reply-to、Cc、Resent-From[5]等用户信息字段存有大量敏感信息。通过邮件头的信息提取和分析能够识别邮件来源、判断邮件转发路径、分析评判邮件是否存在可疑行为。
邮件头的Received字段记录了详细的消息传输历史和邮件传输经过的节点信息,每台接收到邮件的服务器都会自动添加IP地址和机器信息到这行,因此即使攻击者伪造了其他邮件头,仍可通过Received项回溯信件来源和传输过程。为提高威胁感知能力,在邮件头信息监测时,增加了邮件头信息与威胁情报平台的联动,通过溯源威胁情报平台的大数据分析技术进一步提高IP地址关联、攻击痕迹发现和威胁感知能力。知识工程(Knowledge Engineering,KE)和机器学习(Machine Learning,ML)是电子邮件过滤的两种常用方法[6]。在邮件头信息监测中,除使用KE方法进行检测规则定义外,还增加了基于Received字段的更多识别模型,如:一旦发现Received字段项包含超过一定量的信息,判定邮件很可能是被转发或退回的异常邮件。通过威胁情报平台和知识工程的融合监测,能够实现更准确的威胁邮件识别与感知。目前邮件头监测技术手段与传统监测技术并没有太大区别,唯一区别取决于威胁情报溯源平台的鉴别能力。
2.3 URL链接过滤
网络钓鱼是一种常见电子邮件欺诈形式。攻击者通过电子邮件向用户发送指向恶意网站的链接,诱骗用户点击以获取用户敏感信息或欺骗用户泄露个人和财务信息,如:登录凭证、账户信息、用户密码、信用卡信息等。
进行URL链接过滤时考虑以下四个方面的监测:
(1)基于URL的链接识别;
(2)基于域名的特征识别;
(3)基于页面的特征识别;
(4)基于内容的特征识别。
此外还关注:
(1)公共反钓鱼网站平台提供的资源信息;
(2)与该URL相关的关联信息。
基于URL的链接识别、基于域名的特征识别和基于公共反钓鱼平台信息进行的邮件过滤基于静态特征匹配技术,可实现对邮件的快速监测和过滤。基于页面、基于内容的特征识别和与该URL相关的关联信息分析可以基于动态分析技术,识别更隐蔽的邮件攻击。具体URL过滤的特征分类和主要指征如图2所示。
URL域分析URL链接的特征。通过分析URL链接的基本属性、行为意图、域名情况,判断该URL是否具备恶意链接的基本特征或存在不良行为意图。
(1)基本属性包括:URL数字计数、URL总长度。
(2)行为分析是对攻击者行为意图的识别,判断依据是分析攻击者是否存在刻意混淆行为。评价标准有:是否存在刻意模仿行为、是否存在拼写语法错误(拼写语法错误往往是由于攻击者插入了特殊字符、隐藏字符等)。
(3)域名分析是通过分析URL子域个数、顶级域名(Top Level Domain,TLD)是否是常用域名、域名起名是否存在规律性和随机性、是否故意设置了存在歧义性的域名等异常行为特征。
基于域名的特征识别,通过公共资源利用、基本属性分析和行为分析方式,识别URL链接是否为可信链接。公共资源利用是通过与国际反垃圾邮件组织提供的黑/白名单比对,发现域名是否可疑;基本属性分析是通过检查域名注册的时间信息,分析域名可信度;行为分析是通过域名分配机构提供的域名注册信息,分析域名用者是否存在刻意隐藏注册人姓名、注册地址等可疑行为,依据可疑程度综合评估确定域名是否可信。
基于页面的特征识别,通过分析链接所指向页面的属性和关联信息,检查URL链接是否符合正常页面的访问特征。检查依据:全球页面排名情况、国家页面排名情况、Alexa流量排名情况、页面类别、相似页面、被其他网站的引用次数、页面每日/月/周的平均访问次数、平均访问时间等。
基于页面内容的特征识别,通过分析链接所指向页面的页面内容,判断URL链接的可信度。需要进行基本属性分析、行为分析和站点分析。基本属性分析是通过分析页面标题和正文文本内容发现页面的不正常状态。行为分析需要对页面的不可见文本、图片、登录情况、网站受众信息等进行逐项分析,发现页面的可疑特征和攻击意图。站点分析是通过分析站点架构和页面标签项,判断站点是否具备正常网站特征。如经过检查发现页面存在异常行为,则判断页面对应的URL链接为恶意链接。
明确URL链接识别中的基本要素后,为每一象限特征构造一个决策树,多棵决策树累加、训练得到最终URL链接的识别结果。
2.4 邮件内容过滤
邮件内容过滤是垃圾邮件过滤的关键步骤。将内容过滤分类为文本监测过滤和图片监测过滤,采用深度文本意图分析技术、图像识别技术、图像对比技术进行邮件内容过滤。
2.4.1 深度文本意图分析技术
传统文本监测技术是基于关键字或多项关键字的正文文字检验,针对敏感信息外发,涉密文件监测有一定效果,但是忽略了对邮件正文结构的监测,而且误报率高。本技术的核心思想是提取邮件的正文特征和主题特征,采用异常文件结构识别技术和语义意图分析技术进行邮件内容和结构的大数据建模。模型建立后解析当前邮件样本的文本内容和文件结构,通过模型分析当前邮件与正常邮件在内容、结构方面的偏离度,深度挖掘邮件发送者意图,区分恶意邮件与正常邮件。通过偏离度分析模型能够在一定程度上识别ATO攻击、BEC攻击中邮件正文链接使用的0day漏洞,对抗高级加密混淆类漏洞利用攻击。具体包括:
(1) 分析标题及正文意图,与URL内容进行比较,判断意图是否一致,如不一致判断存在攻击行为。典型应用场景为:邮件诈骗者骗取用户访问恶意URL链接,利用浏览器漏洞在用户主机执行恶意代码或者盗取用户密码。
(2) 分析标题及正文意图,与附件(文档类)内容进行比较,判断意图是否一致,如不一致判断存在攻击行为。典型应用场景为:攻击者向目标邮箱账户发送含有漏洞利用程序的附件文档,此类恶意文档一般存在文件结构问题,可通过数据建模的方式识别异常。邮件安全防护系统进行垃圾邮件过滤时如果仅凭结构异常就判定邮件为恶意邮件,可能造成误报影响用户体验。若通过意图比较技术进一步分析,一旦发现邮件行为意图可疑并且文件格式存在问题,则初步判断邮件可能为恶意邮件。通过意图比较分析技术能够提高恶意邮件识别的准确率。
(3) 加密恶意附件的解密与监测技术:为规避检查,聪明的邮件攻击者可能使用加密技术进行攻击载荷隐藏,并在正文中显示密码,方便用户手工输入解密。自动化沙箱监测因不能识别密码而无法对邮件解密进行检查。加密恶意附件的解密与监测就是通过文本语义分析技术自动识别出正文中的密码信息,并以此为凭据解密附件,进行自动化分析与过滤。
2.4.2 图片识别技术
随着邮件攻击技术的发展,出现了将信息隐藏在图片中发送的垃圾邮件规避技术,图片识别技术专用于监测此类攻击。有两类主要技术方法:
(1) 图片文字识别技术:利用该技术可将图片中的文字转化为文本,然后使用深度文本意图分析技术进行发送者意图分析,识别通过图片隐藏的恶意垃圾邮件。
(2) 图片密码识别技术:为规避邮件过滤系统的监测,攻击者常常将带有恶意漏洞利用程序的附件加密,并将解密密码隐藏在正文图片中一起发送到受害者邮箱。受害者收到邮件后根据图片信息可解压打开恶意文档。邮件过滤系统因不能解密而无法正确过滤邮件。利用图片密码识别技术,可以发现图片中的隐藏密码并正确识别,利用密码自动解压附件、过滤恶意程序,使攻击行为无处可藏。
2.4.3 图像对比技术
图像对比技术进一步加强了钓鱼攻击的监测力度。在商业钓鱼中,不法分子经常伪造银行页面,骗取用户账号密码。钓鱼网站域名在未被安全公司披露前,往往会有大量用户中招。图像对比技术采用类似网站快照的方式,对全球易被诱骗的正常网站页面镜像拍照,当识别出邮件中URL中内容与正常网站的相似度为99%以上,但URL链接不是真实的链接时,判定为钓鱼链接。
2.5 邮件附件过滤
网络安全攻防对抗不断升级,免杀技术、0day漏洞大量曝光,仅仅依靠传统的杀毒引擎很难保持对恶意附件的高查杀率。沙箱技术的出现虽然实现了一定程度的过滤,但绕过沙箱监测的技术也在不断出现,仍有大量恶意邮件样本绕过监测。为此,提出沙箱与机器学习相结合的邮件附件过滤技术。主要实现以下三大类附件的监测与过滤:
(1)脚本监测:采用基于机器学习的加密混淆监测模型。首先通过加密手法、混淆手段、提取分析技术抽取样本,学习训练形成脚本监测模型,将模型与脚本在沙箱中的行为监测结果结合,识别是否存在恶意行为。
(2) Office文档、pdf文档监测:系统进行文档监测时,除利用静态分析技术进行文档格式检查、威胁特征匹配、宏监测、恶意ole对象检查外,还利用了动态沙箱监测技术监控文档打开后的所有行为,判断是否存在下载执行、反弹回连、数据传输等可疑木马行为。除此之外,系统通过大量文件进行文档异常格式数据建模及训练,利用模型结合沙箱的行为监测技术感知威胁、监测未知漏洞。
(3)可移植的可执行(Portable Executable,PE)文件监测:首先通过字符串分析、导入表分析、资源图标分析、编译信息分析、PE其他结构(包括DEP/NX /ASLR)深度分析等方法对PE文件综合打分,然后依靠机器学习算法优化权值和威胁阈值,综合评判实现威胁附件的发现与识别。对于威胁值高但无法确定存在威胁的文件,通过沙箱监控技术进行再次监测。全面监控文件、内核、内存、注册表的变化情况并建立各种行为的异常数据模型,通过机器深度学习方式识别发现威胁。此外增加沙箱逃避监测技术,防止恶意文件监测到沙箱环境后停止运行、逃避检查。
2.6 恶意邮件溯源
威胁情报平台积累了多个知识库,通过关联分析模型实现溯源,包含黑客工具知识库、黑客身份定位知识库、黑客身份定位知识库、漏洞库、木马库、恶意DNS库、恶意域名库、恶意URL库、黑客指纹库、黑客行为库、规则场景库等。比如黑客工具知识库能根据工具指纹识别攻击者使用的工具,用于判断攻击者的身份,因为不同组织不同地区的攻击者都有其自己的黑客工具。黑客攻击手法知识库,不仅能分辨出黑客的水平,甚至可能确定黑客的身份和组织。黑客身份定位知识库收集了全球大量黑客个体和组织信息,以及对应的攻击事件,当检测到攻击时,能自动识别是否为对应的攻击者,如果未识别,也会自动收集该攻击行为的指纹和手法,下次遇到同样攻击行为指纹和手法则会识别出来。除此之外,还可以联动其他安全厂商资源,关联攻击者曾在互联网上的攻击事件。
威胁情报平台数据来源分为三部分:第一部分通过全球部署的蜜罐系统长期收集攻击者相关的威胁情报。第二部分采用大数据采集技术进行开源威胁情报的信息挖掘和收集,由安全专家进行信息的筛选分析,最终整理形成有价值的威胁情报。第三部分是通过大量部署在客户网络的安全监测设备反馈形成的威胁情报
黑客工具知识库是威胁情报溯源云中心的重要元素,通过“三因子模型”定义溯源基因。“三因子模型”从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度定义恶意邮件的溯源基因。
每类指纹基因定义专属标签项,每个标签项下设定具体的溯源特征和指标。三因子模型共包含19个标签项,近百项溯源特征和指标。其中标签项的定义和分类如图3所示。
通过对黑客工具的识别,很大程度上可以识别攻击者的背景、身份。
3 系统实现与应用
恶意邮件智能监测与溯源系统的主要功能包括恶意邮件的监测、识别、过滤和溯源。系统包括三个主要功能模块:
(1) 网络流量中邮件数据的采集;
(2) 网络流量中邮件数据的分析与溯源;
(3) 恶意邮件查询和溯源结果显示。
其中,网络流量中邮件数据的采集由公司部署在网络关口的多个探针系统完成,利用探针系统可完成网络流量数据的获取。
网络流量中邮件数据的分析与溯源是系统核心功能,包括三个子模块:
(1) 邮件数据提取:从海量网络流量中提取邮件相关数据,重组邮件。
(2) 多级过滤引擎:融合多项邮件过滤关键技术和分类匹配算法、机器学习算法进行恶意邮件的检测、识别与过滤。
(3) 溯源分析模块:采用基于威胁情报的三因子指纹识别技术,进行邮件基因关联,识别邮件的真实来源和所属黑客组织。
恶意邮件查询和溯源结果显示使用BS架构,用户可通过浏览器方便地进行恶意邮件查询、样本获取和溯源结果查看。
目前系统已成功应用于网信办、公安部、海关总署等政府机关和国家电网、民生银行、中国联通等大型企业。在实际应用环境中,采用智能恶意邮件监测与溯源技术实现的“睿眼邮件攻击溯源”系统,成功识别、溯源多起境外黑客组织以邮件方式发起的APT攻击;帮助用户及时发现、应对、溯源针对内网用户的钓鱼邮件攻击、BEC攻击、ATO攻击等高级邮件威胁。同时,通过行为分析及时发现用户邮件的弱口令设置、账号受控等不安全因素,告警提示、预警风险,取得良好应用效果。
4 结论
为解决现有恶意邮件安全检测系统在监测能力和溯源能力方面的不足,本文提出发展新一代智能恶意邮件安全监测与溯源系统的技术需求。围绕识别APT、ATO、BEC等新型复杂攻击的恶意邮件监测要求,设计了一款包含多类检测引擎和多级过滤系统的智能邮件监测与溯源系统。系统基于获取的网络流量数据进行恶意邮件的分析和过滤,除具备传统垃圾邮件过滤功能外,还融合了异常行为分析、URL链接过滤、深度文本意图分析、图像识别、图像对比、加密附件解密、沙箱监测、威胁情报溯源等智能化邮件分析技术,能够更加