欢迎光临
我们一直在努力

人工智能扮网络安全配角 机器学习仍难“一肩挑”网络攻防

对于机器学习来讲,最主要的两个概念分别是“有监督学习”和“无监督学习”。有监督学习就是人们“告诉”机器“哪些数据是属于哪一类的”,然后进行数据训练;反之,无监督学习就是“不告诉”机器,直接由人们对最终输出的结果进行定义。

人工智能扮网络安全配角 机器学习仍难“一肩挑”网络攻防

亚信网络安全产业技术研究院副院长童宁作题为《机器学习驱动网络安全发展》的演讲

在人工智能时代,各行各业最怕听到的是“取代”:人工智能被认为将一步取代法官、取代速记员,取代建筑工人和出租车司机……不过,目前在许多行业,人工智能仍然只能扮演配角,网络安全就是其中之一。

“就安全领域来讲,我们把人工智能当成一种帮助安全专家更有效地工作的工具。在可见的未来,还是需要领域专家和网络安全专家来主导。”7月6日~7日,在成都召开的C3安全峰会上,亚信安全通用安全产品中心总经理、亚信网络安全产业技术研究院副院长童宁在接受《中国科学报》记者专访时表示,机器学习的确提供了强有力的帮助,但在当前网络攻防态势下,机器学习也难以“一肩挑”。

不过,随着对机器学习这件工具开发、利用的逐渐深入,网络安全正在进入网络攻防的新阶段。

充分条件和必要条件

机器学习技术应用于网络安全早已有之。童宁指出,早在1986年,美国斯坦福研究中心就提出用数据统计来检测网络非法入侵。“利用机器学习算法对垃圾邮件进行分类,也已是20年前的事情。”

童宁介绍说,随着移动互联网的发展,大量的设备产生了各式各样的日志文件。特别是在2000年以后,在日志管理和分析方面,机器学习算法有了长足的发展。比如IBM等大型互联网企业就在这些方面使用了大量的机器学习算法,包括关联分析等。

“2000年以来,机器学习所带来的变革——比如利用机器学习算法对用户的异常行为进行分析等开始普及起来。”童宁说。

趋势科技资深数据科学家张佳彦从技术发展和经济原因两方面,向《中国科学报》记者展示了机器学习介入网络安全的“充分条件”和“必要条件”。

“从2006年开始,网络病毒开始急剧增加,直到2012年达到第一个高峰期。而2012年开始进入第二个循环,更多的新病毒大量出现。”张佳彦援引一组数据提出:“以2007年的数字为例,每年有约600万个新病毒出现,也就是每天出现1.6万个病毒。在这种情况下仅靠网络安全专家分析和阻挡是不够的,这就为机器学习的出现提供了充分条件。”

然而事实是,2006~2012年间,一些机器学习技术已经被用来尝试助阵网络安防,但直到2013年机器学习技术才逐渐被安全专家所讨论和强调。这背后的原因是什么?张佳彦认为其中牵涉的不只是技术问题,还有经济原因。

原来,2006~2012年这期间,病毒的制造者已经从单一黑客演化到有组织的黑客犯罪系统,目标就是为了窃取受感染电脑的资讯进行贩卖。此时病毒的变种已经非常繁多,网络安全公司已开始使用机器学习对抗病毒。

然而,在这期间,用户还不能接受机器学习的手段——这一阶段的许多病毒都有潜伏期,由于没有立即性危害,许多用户虽已中毒但并不知情。而相比其他解决方案(如1:N病毒码),误判率更高的机器学习算法显然给用户带来了困扰。

“这个时候即使已经用了机器学习方案,大家也不愿大张旗鼓地说。”张佳彦告诉记者。

“剧情”在2012年后出现急转。到了勒索软件为代表的“网络威胁时代”,紧跟着此后不易追踪的比特币等的出现,勒索病毒所造成的立即性损失的重要性已经超过了机器误判带来的困扰,“这为机器学习参与网络攻防提供了必要条件。”张佳彦表示。

有监督学习和无监督学习

对于机器学习来讲,最主要的两个概念分别是“有监督学习”和“无监督学习”。百度安全首席架构师武广柱解释说:“有监督学习就是人们‘告诉’机器‘哪些数据是属于哪一类的’,然后进行数据训练;反之,无监督学习就是不‘告诉’机器,直接由人们对最终输出的结果进行定义。”

“有监督的学习一开始就有人为的因素在里面,如果训练结果不尽如人意,工程师可以进行算法调整,直至它的结果达到人们的要求以后,再投入生产使用。”童宁介绍说。

一个有监督学习常用的例子是,从房地产中介商处拿到一些房屋原始数据:年代、面积、位置、成交价等,交给机器去“学习”。产生的模型就可以给后来的购房者提供参考:比如输入其预算多少钱,得出该客户能够在什么区位买到什么样的房子。

童宁表示,有监督学习的这种能力可以用于网络攻防中对恶意程序、垃圾邮件的识别和对勒索病毒的防治,特别是在需要多维度识别的情况下,能够大幅提高识别速度和效率。

无监督学习所用的方法与有监督学习有些不同。“机器直接根据数据自身的特征进行自动分类,但机器并不知晓所分类、聚合的特征是什么。人们再行标注具体属性。”童宁说,无监督学习“聚类”的优势,可以轻易挑出“少数派”,帮人们监控到一些人所不易察觉的异常行为。

“通过这有监督和无监督学习的两个例子,可以发现机器学习关键是,首先必须要有持续性的、高质量的数据。因为整个的网络环境一直在变,机器需要学习的内容也要随之而变。”童宁半开玩笑说,“机器跟我们人类一样,需要‘活到老,学到老’,从而保证它的学习能力。”

更重要的一点是,无论有监督学习还是无监督学习,对特征的抽取和概括总结,都是由网络安全专家和领域专家所区别出来的,因此,“必须要有解决问题的领域专家”。

“我们的客户常常问:是不是有数据专家、网络安全专家就够了?答案是否定的。必须要有领域内的专家,否则抽取的特征很难去把握。”童宁指出,只有三种元素(持续高质量的安全数据、领域专家—网络安全专家、机器学习数据专家)协作,机器学习在网络安全方面的应用才能获得更好的效果。

张佳彦也提出,在传统机器学习所必不可缺的三大要素——数据、特征、算法之中,“最花时间的”就是网络安全专家如何产生有效的特征:“这需要非常有经验的专家,还要经过反复不断的测试,才能得到良好的结果。”

机器学习不是“万灵丹”

不过,在张佳彦看来,除了对安全专家的依赖,机器学习还存在一个软肋:误判率。

“对我来说机器学习就像‘原子弹’,它的威力无穷,但如果用得不好会伤敌一千,自损八百。”张佳彦指出,“训练出来的模型某种程度上有不可避免的误判率,所以我认为机器学习的重点,不仅在于可以把误判率降低多少,更在于承认它一定有误判率的存在。”

他认为,如何将误判率对用户造成的伤害和困扰降到最低,是当前机器学习更重要的议题。

“机器学习在垃圾邮件分类、恶意程序查杀方面,已经比较成熟了。有时分错一些邮件相对来讲还可以接受,但一旦查错杀错‘恶意程序’,后果就严重了。”童宁作为一线安全专家深知,机器学习即便再强大也不能对其押上所有赌注。

“我们强调机器学习技术也是强调它多维识别很强,但我们并没有放弃第一代的黑白名单、第二代的行为监控等技术,机器学习技术再强大也只是辅助工具,这些手段综合起来利用效果才更好。”童宁告诉《中国科学报》记者,“网络攻防是永恒的主题,我们唯一能做的就是拿出各种武器,跟黑客战斗到底。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。