人工智能威胁检测的两大创新实践-人工智能威胁论

二进制可视化和机器学习的结合在网络安全方面已经展示了巨大潜力，恶意软件和钓鱼网站检测就是其中的热点领域，本文我们将介绍该领域的两大创新应用进展。

一、用深度学习检测恶意软件

检测恶意软件的传统方法是在文件中搜索恶意负载的已知签名。恶意软件检测器拥有一个包含病毒操作码序列或代码片段的数据库，它可搜索被检测的新文件中是否存在这些签名。但恶意软件开发人员可以使用不同的技术轻松规避此类检测方法，例如混淆检测代码或使用多态技术在运行时改变他们的代码。虽然动态分析工具可尝试在运行时检测恶意行为，但速度较慢，并且需要设置沙箱环境来测试可疑程序。

近年来，研究人员尝试了一系列机器学习技术来检测恶意软件。这些机器学习模型在恶意软件检测的一些领域上取得了进展，例如代码混淆。但机器学习也面临着新挑战，包括需要学习太多的特征和分析目标样本的虚拟环境。

二进制可视化可以通过将恶意软件检测转化为计算机视觉问题来重新定义恶意软件检测。在这种方法中，文件通过将二进制和ASCII值转换为颜色代码的算法运行。

研究人员表明，当使用这种方法可视化良性和恶意文件时，可以将两者分开，恶意文件往往包含各种类别的ASCII字符，呈现出丰富多彩的图像，而良性文件则具有更清晰的图片和值分布。企业可以利用此检测模型进行恶意文件检测。

研究人员创建了一个包含良性和恶意文件的可视化二进制文件数据集，该数据集包含各种恶意负载(病毒、蠕虫、木马、rootkit 等)和文件类型(.exe、.doc、.pdf、.txt 等)。

然后研究人员使用这些图像来训练分类器神经网络。他们使用的架构是自组织增量神经网络(SOINN)，速度快，尤其擅长处理噪声数据。他们还使用图像预处理技术将二值图像缩小为 1,024 维特征向量，这使得在输入数据中学习模式变得更加容易且计算效率更高。由此产生的神经网络足够高效，可以在配备英特尔酷睿i5处理器的个人工作站上在15秒内计算包含4,000个样本的训练数据集。

研究人员的实验表明，深度学习模型特别擅长检测.doc和.pdf文件中的恶意软件，这些文件是勒索软件攻击的首选媒介。研究人员建议，如果调整模型以将文件类型作为其学习维度之一，则可以提高模型的性能。总体而言，该算法实现了约74%的平均检测率。

二、用深度学习检测钓鱼网站

网络钓鱼攻击正成为组织和个人面临的日益严重的问题。许多网络钓鱼攻击诱使受害者点击一个指向恶意网站的链接，这些网站伪装成合法服务，他们最终会在其中输入敏感信息，例如凭据或财务信息。

检测网络钓鱼网站的传统方法主要是将恶意域名列入黑名单或将安全域名列入白名单。前一种方法对名单内未收录的新型网络钓鱼网站没有筛选能力，而后一种方法限制性太强，需要付出大量努力才能提供对所有安全域名的访问。

2020年，研究人员使用二进制可视化和深度学习开发了一种检测网络钓鱼网站的新方法。该技术使用二进制可视化库将网站标记和源代码转换为颜色值。与良性和恶意应用程序文件的情况一样，在可视化网站时，会出现区分安全和恶意网站的独特模式。研究人员写道：“合法站点具有更详细的RGB值，因为它将由来自许可证、超链接和详细数据输入表的附加字符构成。而网络钓鱼网站通常包含单个或不包含CSS引用、多个图像而不是表单和一个没有安全脚本的登录表单。这将在抓取时创建一个较小的数据输入字符串。”

研究人员创建了一个代表合法和恶意网站代码的图像数据集，并用它来训练分类机器学习模型。他们使用的架构是MobileNet，这是一种轻量级卷积神经网络(CNN)，经过优化可在用户设备上运行，而不是在大容量云服务器上运行。CNN特别适用于计算机视觉任务，包括图像分类和对象检测。

一旦模型经过训练，它就会被插入到网络钓鱼检测工具中。当用户偶然发现一个新网站时，它首先检查该URL是否包含在其恶意域数据库中。如果是新域名，则通过可视化算法进行转化，并通过神经网络运行，检查是否有恶意网站的模式。这种两步架构确保系统使用黑名单数据库的速度和基于神经网络的网络钓鱼检测技术的智能检测。

研究人员的实验表明，该技术检测网络钓鱼网站的准确率高达94%。此外，研究人员还在探索使用二进制可视化和机器学习来检测物联网网络中的恶意软件流量。二元可视化表明，只要有足够的创造力和严谨性，我们就可以为旧问题找到新的解决方案。

【本文是51CTO专栏作者“安全牛”的原创文章，转载请通过安全牛（微信公众号id:gooann-sectv）获取授权】

戳这里，看该作者更多好文