网络安全威胁情报系列研究之 基于海量DNS数据的威胁情报发现

机器学习和威胁情报作为当前热门的两大前沿技术,已经为越来越多人所关注。

Sec-UN两位作者就这两个热门技术领域进行结合,使用真实网络数据进行了一次海量日志数据的情报挖掘测试,部分成果共享如下。

基于机器学习的情报自动产生技术用于直接产生阻断规则目前还是不成熟的,但是其十分适合进行海量数据的自动粗筛,之后辅助机器的自动验证和人工的确认纠正,最后可成为解决海量数据情况下生成情报(或者说发现攻击)的有效手段。

作者要求匿名,以下报告正文:

大数据安全讲了两三年耳朵早就起茧也不见有什么具体方法和案例放出来,或者罗列一堆高大上术语名词砸晕你,非白富美投不起那钱满世界部署各种sensor罐子大数据平台,或者分享的都是虚头巴脑无法复制的云山雾罩,关联序列各种数据挖掘忽悠起来头头是道就是没有实例。眼看着威胁情报开始热火朝天,上面的情形更是愈演愈烈。

Sec-UN觉得这可不利于安全行业的健康发展,决定逐步公开一些数据分析实例,让更多小伙伴投入就在身边的安全数据分析大潮,了解:

1)“数据驱动的安全”也可以很便宜!

2)你手里那些数据也能发现很多安全问题,不要觉得没有上P大数据就什么都做不出来!

3)大型团队两三年的跟踪研究报告确实很炫,但只要你有合适的技术和工具,一个人照样能撰写高质量的情报!

今天登场的数据主角是DNS解析日志里的域名。没错,只有域名,一行一条,共有2800万条,一天之内采集的,几个月前的历史数据。

全是光秃秃的域名怎么做关联分析啊?千万别打退堂鼓,虽然不是全部日志,不能做DNS欺骗分析等等,但也完全足够发现很多有趣东西!

配角是恶意域名分析工具,Sec-UN成员小公司出品,马力强劲,laptop上分析处理2800万条域名不到10分钟!

*** 注意:故意用几个月前的数据,现在问题网页都已经看不到,不要去尝试! ***

1、Domain Shadowing

今年3月份各大实力厂商炒得火热的头条:Angler Exploit Kit加入了Domain Shadowing能力!言外之意用户你不买我昂贵的威胁情报服务就搞不定!

1

同学们先去看看思科的宣传:http://blogs.cisco.com/security/talos/angler-domain-shadowing

2

为国内几年如一日孜孜不倦致力于普及知识以提升行业整体水平的同行们点个赞!

我们没有按厂商宣传文稿里所说的那样去找木马样本,就从一堆干巴巴的域名数据里发现了下面这些典型例子:

3

那是怎么个原因会造成这样结果呢?

4

哈哈,现在你明白了吧。

其实Sec-UN也是有海量木马样本的,但我们就是要任性地只用域名来分析,让同学们看看又小又单一的数据也有效果。

这种随机生成的域名现在已经是攻击一方的标准配置,各种kit里都有,从二级域名到子域名,再加上几百个灵活可选的TLD,给分析和防御带来极大麻烦。有木马样本又如何?还是没办法穷举所有可能出现的域名。Sec-UN的域名分析工具,利用机器学习和自然语言处理技术,对付用算法生成的恶意域名和URL有奇效。

我们其实很容易地就发现了好几组类似实例,都跟上面的差不多,这里就不一一列举。透漏个统计,上面这组有超过25万个域名!这些域名解析请求可都是意味着浏览器已经试图加载页面,不管是弹窗还是点击,说明这组恶意网页至少显示了几十万次,一天之内!

呃,可是我们的域名数据确实在厂商公布之前采集的,那让我们去刚才厂商的IOC链接里查查。果然没有。一组都没有。及时性和地域性,仍是横在威胁情报厂商前面的一大难题啊。

等等,我还看到了什么?

5

2、微信公众账号钓鱼

利用微信公众号钓鱼,仍处于上升势头。我们在这局部地区一天内的域名解析请求数据里发现了高达28万个不同的微信公众号钓鱼域名。

6

随便挑了几个查查注册时间:

7

都很新。看到其中两个注册时间只差了1秒吗?就像前面提到的,自动化脚本随机生成域名并注册,已经是地下产业标准配置,成本低,上线快,周期短,传统产品难以解决,正是数据分析大显身手的场景。同学们准备好了吗?

同学们可以继续深挖挖,就可以发现这不是一个人,是一个组织,有几个注册邮箱被多人混用,最近还仍在注册新的域名。

还可以发现有多个不同手法的组织,只需域名特征就能分辨出。这里就不赘述了。

[via@Sec-UN]