浅谈如何利用ip数据来辅助风控和安全系统

释放双眼,带上耳机,听听看~!
互联网时代,ip一直在网络安全和风险控制领域占据着最为重要的地位,主要是出于以下因素:所有的网络请求都会带有ip信息,因此其天然的成为访问者的身份标识。由于ip的管理和分配比较严格,很难造假。虽然会有代理、肉鸡等掩藏踪迹的手法。但绝大部分情况下,ip数据的真伪是可以信得过的。由于ip属于网络层,可以

互联网时代,ip一直在网络安全和风险控制领域占据着最为重要的地位,主要是出于以下因素:


所有的网络请求都会带有ip信息,因此其天然的成为访问者的身份标识。

由于ip的管理和分配比较严格,很难造假。虽然会有代理、肉鸡等掩藏踪迹的手法。但绝大部分情况下,ip数据的真伪是可以信得过的。

由于ip属于网络层,可以轻松的对其进行阻断。现有的各种网络安全、负载均衡的设备和软件,都是以ip为对象进行追踪和管理的。


因此,常见的攻击防范和风险控制都会利用IP来作为用户的身份标识,来进行分析和处理:




IP常见分析方法

IP客观属性

目前的IP分配都由专门的机构或官方来统一分配和管理,所以有很多客观上比较准确的属性可供参考:


1. 归属地。目前每个ip的归属地在较短的时间内都会保持固定,可以用来判断请求来源的大概位置


a. 归属地数据目前有免费和商业的服务,也可以参考这个玩具例子(简易构建适合风控系统的ip库),搭建自己的ip库


b. 归属地的变更相对来说更频繁,在数据源的选取上需要找更新较频繁的


c. 现在3/4G的移动出口会带来混淆,手机上网的ip可能只能反映手机卡归属地,所以要小心这一部分数据



所属机构。大型组织机构申请的固定ip都需要绑定信息,可以从ASN数据获取一些端倪。例如我们可以借此判断IP是否属于公有云平台、教育网

绑定域名。通过DNS可以查询到域名相关的ip,同样,部分ip可以反查出相关联的域名


a. 一个典型的应用是通过ip将大型搜索引擎的ip查出,防止误杀。不过只适用于google、bing、百度这样的大型搜索引擎,才能反查出域名,国内其他的搜索引擎还不行


其他。还有一些其他属性,例如是否属于手机基站等,可以通过其他手段来获取。


1.jpg


这里是一个例子,我们通过系统分析发现了一个可疑ip,这里面ip的归属地、vps信息、公有云平台信息都是ip的客观属性,可以辅助我们做决策。

事实上,目前看来大部分的普通攻击行为来自于云服务器,从直觉上来说,普通用户也不应该通过公有云平台来访问网站。所以有时候,如果发现客户ip是公有云平台的,可以直接将此请求置为高危。


IP主动探测属性

ip除了一些客观属性,还可以通过主动探测来作进一步了解:


  • 是否是邮件服务器

  • 是否是web服务器

  • 是否是vpn服务器

  • 是否是代理服务器


这里可以通过包括端口扫描在内的一系列主动探测、尝试技术来获取信息,来辅助判断:


对于普通个人用户或者是出口ip而言,不会有相应的服务与ip绑定;否则,极大概率是机器行为。目前互联网上的流量,有很大一部分是机器行为,所以这块信息在人机判断上可以起到很大的作用。


不过现在有一些例外,有一些流氓的家用路由器可能会开通一些端口和服务,不过这一类用户本身就属于高风险来源。


IP行为

ip的属性准确性是比较高的,但并不能覆盖所有场景,所以有时候还需要根据ip的相关行为作出判断:


  • 该ip的请求是否有注入、撞库、ddos、漏洞扫描等网络攻击行为。

  • 该ip的用户是否有刷单、恶意欺诈、薅羊毛等风控相关的的行为。

  • ip和用户名、设备指纹等的关联信息。如果发现某个用户、设备上有非常多的用户,极大的概率可以将此用户和设备拉黑;反过来,当某个ip出现了大量的用户或设备,也是风险提示,不过要排除组织出口等属性的影响。


2.jpg


上图显示出某个ip上的用户行为,可以看出在有规律的切换账号进行操作,这样就把松散的攻击,以IP为纽带联系起来,方便识别。

ip的归属地特性也可以与用户行为结合起来。常见的分析方法包括识别用户常用ip,以及用户是否短时间内发生了较大的地理偏移(通过比较使用的不同ip的归属地)。

更复杂的分析包括利用ip、用户、设备之间两两关联的信息可以勾画出网站内用户之间的关联网络、以及用户间的资金流向,这在反洗钱、复杂欺诈行为识别等方面具有显著效果。


IP历史行为辅助

通过对自身网站用户行为的分析,可以找出绝大部分的有害访问,但还是有以下缺点:


  • 除了少数巨头,大部分网站自身的数据体量小,不足以作完善的分析

  • 需要较大的技术和资源投入,普通公司无法承担

  • 比较偏向于事中和事后,很难做到事前的预防


目前,还有一种方式是借助于互联网上的一些黑白名单来弥补这方面的不足,这些黑白名单来源于他人网站上ip的历史行为。但这种方式有一些缺陷:


  1. 相对来说,风险行为跟时间和场景密切相关,所以他人的黑名单不见得对所有人合适,即使这个“他人”是巨头

  2. 目前互联网上的信息泛滥,这些黑白名单是否值得信赖?

  3. 大量的ip与使用者之间没有强绑定,另外,后一节将会提到ip在身份识别的作用上已经逐渐力不从心


我们自身也有提供上述信息的数据服务,但在历史行为这一块还是采取较保守的策略:


  • 历史行为相关的数据采用较短的过期设置,来应对ip被轮换出去的情况

  • 数据来源方面,采取信任的来源。一种是自己去部署的蜜罐分析出来的结果;另一块是我们有标准化的大数据分析平台和策略,通过合作客户的黑名单数据交换来扩充自身数据库


不过即使是这样,还是需要用户有正确的使用姿势,不要纯粹当成黑白名单来使用,更多的是作为自身数据分析的补充。





IP的颓势


需要指出的是,从最近几年开始,IP在作为用户标识的作用日渐削弱,从而极大的影响到了其在安全防范和风险控制方面的有效性:


IPv6 已经不是新话题,虽然进程非常缓慢,但趋势无法逆转;IPv6的场景下,ip唯一性会难以保证。好在现在IPv6的普及率都很低,不管是用户还是网站。

目前,国内大部分用户是没有独立ip的,基本上是在公司、学校、网吧等地方上网,大家共享出口ip。以教育网为例,它共有76000+ C类地址,虽然已经是比较多的资源,但还是不能完全覆盖它内部整个网络,会有很多学校只能分配到少数资源,导致大量的学生都共享同一个公网ip,有一个调皮了就会影响到一群人。对这类ip,需要非常小心。


3.png


近几年移动化浪潮下,共享ip的问题尤其突出。现在大部分网络访问来自移动设备,要么是wifi地址,要么是3/4G出口。如果是后者,同一ip下的设备数量会非常惊人,贸然采取行动的话会死的很惨。移动时代,ip的作用已经大为减弱。

即使是独立ip,也很难对其采取长时间的措施。


a. 一种独立ip是电信买的固定ip,但这种成本高昂,拿来做坏事是得不偿失的;


b. 一种是最普遍的adsl拨号,这种每个人分配到的都是临时ip,会很快被换到其他人手上。目前很多高级的爬虫会采用这种形式(甚至有专门的拨号云主机出售),当被攻击对象进行封禁时候,只要重新拨号就可以获取新的ip,继续攻击行为;同时网站还不敢对这种ip进行长时间封禁,因为这些ip可能很快会被分配给普通用户使用,从而影响到普通用户的使用体验。对于这种攻击,只能是实时行为分析并阻断+短时间封禁来应对,对数据分析能力和网站技术框架带来很大的考验。


ip的上述特性,使得使用者需要采取更加专业和谨慎的姿势。



IP的正确使用姿势

在我们和客户的合作过程中,整理了一些对ip信息在安全防范和风险控制场景下的建议:


把ip信息单纯的作为黑白名单会带来一定的误杀率,不小心的话会带来比较严重的结果,需要一种合理的方式,并结合自身的情况来处理。

但是我们也发现,很多用户在分析过程中,过多的偏重于手机号等特性,忽视了ip的作用,这个其实损失了大量的风险信息,也会对误杀率(基站数据、教育网、组织出口数据等信息作白名单)和覆盖率(服务器、公有云平台、搜索引擎等信息辅助)带来影响。

对于所有的用户来说,都需要很好的利用ip的固有属性,无论是客观的还是主动探测的。这些属性分别在白名单和黑名单方面都有比较明显的贡献,如果自身有风控系统,应该将这些信息补充到自己的模型或策略中,可以起到明显的增强效果。

对于ip历史行为(常见的黑白名单)的数据来说,要挑选数据源,误杀率重于覆盖率。而如果有自身的风控系统,两相印证才是最合理的使用方法。

给TA买糖
共{{data.count}}人
人已赞赏
HackerNews

【技术分享】Django开发最佳实践(上)

2018-3-16 2:39:47

HackerNews

【技术分享】Django开发最佳实践(下)

2018-3-21 2:51:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索