过去数年间,深度学习这一人工智能技术在几乎所有应用领域都掀起了跨越式发展,引发了史上最大的一次计算机科学的性能革命。随着深度学习技术的持续深入应用,业内研究进展的速度已经从过去的年均数个百分点,上升到数月即可增长20%-30%。

这场革命也引爆了媒体对人工智能的关注。“人工智能”、“机器学习”和“深度学习”等术语如今经常见诸报端,但也经常被媒体人误用、乱用。因此,在讲述人工智能如何在互联网安全领域大展身手之前,我们有必要先搞清楚各种术语究竟指的是什么。

人工智能

“人工智能(AI)”这一概念最早在上世纪50年代由计算机科学家约翰·麦卡锡提出,是一切由人造机械运行的任何形式的智慧原则和方法的概括性总称。从40年前由数据集和硬编码算法组成的“专家系统”,到时下最先进的各种算法体系,均数此列。

如今,几乎所有产业领域里使用的所有软件,哪怕只是用基础代码进行基本操作的软件里,都或多或少有着人工智能的影子。

机器学习

“机器学习”是如今人工智能领域当中领先的细分领域。在这一技术中,机器无需人类下达完全精确的程序指令,即可自主学习。

以机器学习为基础的方法,在效果上优于所有不以机器学习为基础的研究方法,因此这一领域基本上主导了21世纪的人工智能研究。

然而,传统的机器学习策略高度依赖“特征提取”模式。人类开发者必须先指定好解决某个问题要依赖哪些关键特征,机器才能学习运作。

举例来说,如果使用传统的机器学习策略进行人脸识别,机器学的不是每张人脸照片的具体像素点分布,而是要首先辨别出一些特定的面部特征,比方说瞳孔间距、面部分布、褶皱、颜色等等。但提前指定好特征,会让更多的原始数据无法参与学习;而如果特征选择不当,学习效果就将大打折扣。这就是传统机器学习的一大主要缺陷。

深度学习

“深度学习”又叫“(深度)神经网络”,是机器学习领域的一个分支。深度学习模式来源于人类大脑的工作方式,其与传统机器学习的主要区别之一就是能够利用原始数据进行学习(例如人脸识别照片的每一个像素),而无需人类指定某些特征。
此外,深度学习需要亿级甚至更庞大的数据源才能实现有效学习,数据源越丰富、学习效果就越好。

难以置信的成功

过去数年间,深度学习帮助科学家在计算机视觉、语言识别和文字处理等大多数领域取得了20%-30%的效果进步。这是人工智能史和计算机科学史上跨度最大的进步。
深度学习的成功,要归功于“软”、“硬”两大因素。

“软”指的是算法的进步。直到几年前,受制于旧算法的局限性,我们只能训练较浅的神经网络,浪费了大量原始数据。如今,改进过的算法让机器可以深度挖掘数据,构建数十层、数以亿计的虚拟突触,形成神经网络。

“硬”指的则是图像处理单元(GPU)硬件能力的跃升。现在,业界所有的深度学习训练都通过英伟达公司生产的GPU显卡实现。该公司GPU芯片的计算速度,是其他类似产品的100倍以上。原先利用中央处理器(CPU)芯片算三个月的数据量,利用同类型GPU只需要一天。

尽管深度学习在许多领域都取得了成功,但由于深度学习研究者和相关科学家人才稀缺,其准入门槛依旧较高。

人工智能和互联网安全

每天全球都会新增超过100万种恶意软件。随着恶意软件变得越来越复杂和隐蔽,抵御恶意软件的攻击也变得日渐困难起来。

传统的防病毒方案通过恶意软件特征码进行防御,但这种方案只能防御已知的恶意软件,而且很多高级恶意软件还能做到“来无影、去无踪”。为了剿灭新型恶意软件,许多互联网安全方案都或多或少引入了人工智能技术。

基于特征码签名的启发式防御,在性能改善方面潜力有限。因此,最尖端的互联网安全方案引入了机器学习作为助力。机器在学习大量数据集文件之后,可以掌握一种以前从未出现过的文件辨识策略,自动分辨安全文件和恶意程序文件。

逃避检测

尽管互联网安全企业通过机器学习取得了潜在进步,他们依然难以检测到那些利用了漏洞隐藏踪迹的高级恶意软件。

在传统的机器学习过程中,人类需要首先将计算机文件从一个个0和1,转换成一长串各种特征(例如重要的API访问请求记录等),机器也只会学习列出来的这些特征。然而,尽管人类专家可以总结出成百上千种特征,但和原始文件里包含的信息相比还只是九牛一毛。通过对特征的表现方式进行巧妙调整,恶意软件还是能逃避安全监测。

而和其他领域一样,一旦机器用上了深度学习,机器就可以抛开特征的限制,不论文件格式、大小、甚至操作系统适配性,直接对完整的文件内容进行学习、分析。

持续进步

此外,随着学习用的数据集规模变大,深度学习的效果也会显著改善。在上亿份恶意软件样本文件面前,传统机器学习总是会遭遇性能提升的瓶颈,但深度学习的效果只会越来越显著。

互联网安全领域中传统机器学习和深度学习效果的比较,证明了深度学习不仅检测恶意软件的准确率更高,误报比率还更低。在其他导入了深度学习的应用领域,同样的进步也在频繁上演。

随着恶意软件开发者的手段逐渐升级,传统机器学习和深度学习之间恶意软件检测率的差距也将逐渐拉开。未来数年中,互联网安全公司将不得不依赖深度学习,才能有机会检测并抵御更加复杂的恶意软件攻击。

作者:Eli David是以色列人工智能企业Deep Instinct的联合创始人兼首席技术官。
以上内容仅代表作者个人观点。
本文由世界经济论坛原创,转载请注明来源并附上原文链接
翻译:世界经济论坛博客翻译小组·钟源
责编:刘博睿
世界经济论坛·达沃斯博客是一个独立且中立的平台,旨在集合各方观点讨论全球、区域及行业性重要话题。