SoReL-20M: 2000万恶意软件样本数据集开源-恶意软件分类数据集

12月14日，网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集——SoReL-20M，旨在构建有效的防御能力，增强安全检测和响应的能力。

SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集，其中包含1000万去除恶意软件功能的恶意软件样本，目标是为设计检测恶意软件的机器学习方法提供足够的数据集。同时开源的还有在这些数据上预训练的基于PyTorch 和 LightGBM的机器学习模型作为基准。

自然语言处理和图像处理领域都有很多公开的数据集，比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同的是，标准化的、标记的数据集对网络安全来说是非常具有挑战性的，因为有很多个人识别的信息、敏感的网络基础设施数据、个人知识产权数据等，更何况要把恶意软件提供给未知的第三方。

2018年发布的EMBER(Endgame Malware BEnchmark for Research)是一个开源的恶意软件分类器，其中只有110万恶意样本，其功能只是单一的标记数据集(恶意软件或非恶意软件)，也就是说会限制试验的范围。

SoReL-20M的目标是通过2000万的PE 恶意软件样本来解决这一问题，其中含有1000万去除恶意软件功能的恶意软件样本(无法执行)，以及1000万非恶意软件中提取的特征和元数据。

此外，该方法使用基于机器学习的标记模型来生成指定恶意软件样本重要特征的人类可理解的语义描述。

SoReL-20M 的发布与近期业界动向是一致的。20年10月，微软发布了对抗机器学习威胁矩阵来帮助安全分析人员检测、响应和修复针对机器学习系统的对抗攻击。

ReversingLabs研究人员称，安全领域威胁情报共享的思想并不新鲜，但是是非常关键的。人工智能和机器学习已经成为检测新的恶意软件和定向攻击软件的关键，而且应用也越来越广泛。

Github 页面：https://github.com/sophos-ai/SOREL-20M

关于SOREL-20M的论文SOREL-20M：A Large Scale Benchmark Dataset for Malicious PE Detection 下载地址：https://arxiv.org/abs/2012.07634

更多参见：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/

本文翻译自：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若转载，请注明原文地址。