信息安全就够复杂的了,往安全软件产品组合中添加AI/ML更是可能会引入问题。但如果选对供应商,一切都不是问题。
多数CISO都认为人工智能(AI)和机器学习(ML)将会在未来3到5年内改变信息安全态势。但这并不意味着他们没听烦了这俩词儿。很多CISO可能真考虑过干脆签张支票以便再也不用听到AI和ML了。基本上,全球每家安全软件供应商都在不厌其烦地提及人工智能,就好像这东西有着神奇魔力一样。更糟的是,很多提供商其实并不具备这个能力。
某些安全软件供应商是不是对其AI/ML产品夸口过多而实际实现功能完全不是那么回事?其实很多供应商都这样。有些是明目张胆地号称 “我们拥有军用级AI”,有些稍微含蓄点儿,说 “我们使用AI”,但实际上用的是300岁高龄的基础静态方法。
网络安全工具市场已经过度消费AI这个词,以致CISO和CIO听到又一款基于AI的产品都忍不住翻白眼了。供应商网站主页上几十次提到AI的情况也不是没有。
大多数号称拥有AI/ML功能的公司,认真评估后最多也就是个市场营销的夸张宣传。
某些供应商夸大或编造AI功能还只是问题的一小部分。Webroot一份新调查研究发现,60%的IT受访者承认,尽管自家软件用到了AI或ML,他们也不确定具体有何意义。而且,仅36%确知自己的网络安全供应商如何引入及更新威胁数据。该调查于去年11月底到12月初进行,问询了美国和日本各200名总监级别及以上的IT人士。
很多专家和体验过AI的CSO都强烈建议信息安全主管参与进来,以便当AI成为绝对必需品时自己不至于陷入苦苦追赶的境地。许多人严重低估了正确训练机器学习模型所需的数据量。构建这些数据可能很是需要一段时间。很多人错误地认为人工智能与算法的复杂性有关。其实不然。个中关键在于AI/ML需要大量数据加以训练。
聪明的CSO现在处于学习AI/ML知识的阶段。他们尽其所能地吸收AI技术知识,与供应商商谈,了解产品功能与局限。这样就能在AI展现出更多前景的时候做出基于风险的明智决策。
想要分清良莠优中选优,不妨在跟安全供应商聊的时候搞清楚下面11个问题。
关于AI/ML安全软件的11个问题
1. 训练数据有代表性吗?
你得知道供应商的模型是用什么数据训练的,才能够确定那些数据是否代表你的数据和你将在自己网络上看到的行为。
2. 训练数据的时效、干净程度和可学习性有多好?
你得知道训练数据集的更新频率,其学习和升级检测功能的能力。你还得了解需要多少数据才足以训练该AI/ML引擎。AI系统的学习力及其学习和再学习所需的数据量是你需要了解的重点。
3. 能拿到性能指标吗?
这是必须搞清楚的一个重点问题。供应商应能共享检测黑客或渗透测试员尽力入侵某系统的双盲控制实验的结果。
用于衡量供应商ML模型性能的指标可以确定供应商是确实采用了机器学习还是仅仅用了个算法。此类指标还应反映出模型的准确性。
对于受监督的模型,再问下“混淆矩阵”的情况,逼近1的值代表高准确性。
“评估未受监督模型的性能更困难一些。相对较小的集群内间距和相对较大的集群间间距表明模型能够有效分组具有离散特征的项。
4. 有实际示例吗?
如果供应商拿不出硬指标,那你就可以考虑换一家考察了。但如果你愿意给他们另一次机会,可以让他们拿出例子来证明自己的AI解决方案比你现有SOC分析师干得漂亮。让他们出具客户参考也是个不错的办法。
5. 专有模型是否意味着不能定制?
当供应商宣称自己的专有AI/ML实现可以 “解决所有问题”,CISO和CSO可以问问 “客户能定制这个解决方案吗?” 如果能定制,客户的工程师需做什么水平的培训才能够完成这些定制?不同模型能摄入同样的数据吗?还是说,只有与该安全产品绑定的模型才能处理你的数据?
6. 供应商的AI/ML实现有多灵活?
首先,供应商的AI/ML实现能否应对不同类型的数据,比如日志、音频、视频、交易记录等等?如果可以,这些数据集能同时馈送吗?还是说必须分开,一次只能一类?
7. AI/ML模型如何更新?
你得搞清楚是否需追加付款或购买新版安全应用才可以得到更新。同样重要的是,问清供应商如何向客户分发此类改进,以及将更新集成进原有系统的难度。
8. 供应商的解决方案对客户安全团队而言是“黑盒”吗?
是黑盒未必不好。但你得知道该解决方案是否支持应用新的AI/ML工具包,知道自己的团队该如何与之协作。该工具能帮安全人员了解数据工作机制吗?能扩展安全人员对数据工程和数据科学的认知吗?还是说,这就是个迫使客户只能靠供应商做出修改的黑盒解决方案?
“对很多客户而言,黑盒比开放式工具包好得多。开放式工具包得咨询好多年才能看到产生价值的曙光。
9. AI是怎么融合到产品中的?
问问供应商,你的AI是并购来的?内部开发的?还是作为你一开始就在用的软件的一部分?必须警惕那种附加的AI。仅仅使用谷歌的TensorFlow可算不上AI解决方案。
10. 系统如何检测新类型攻击?
该系统如何应对所谓的冷启动问题?机器学习算法需要数据就好像鱼儿需要水。供应商的AI系统如何识别此前未遇到过的威胁呢?
11. 谁持有这些数据?
小心你的数据。AI供应商当前的主要目标不是卖产品,而是尽可能多地获取用于测试和改进其模型和算法的数据。必须弄清他们的产品对你数据和系统的访问权限,知道谁持有产出的AI元数据。
争议的温床就是训练数据的所有权问题,训练数据是会随时间积累的。
给CISO的建议
衡量AI解决方案有效性是CISO能做的一大重要事项。但要做好这件事,你需要相关领域的专业知识。每家公司都应聘有数据科学家。计划广泛引入ML解决方案的CSO应考虑聘用数据科学家和数据工程师。
说到员工,如果公司技术人员具备评估AI安全产品的知识,放心信任他们。在某些公司,高管需信任自己的技术人员,这些人将是与兜售产品的供应商周旋的主力。当然不能信任所有人,但得找到或雇到能鉴别供应商天花乱坠式营销,直击产品实际功能的人。AI/ML人才缺口会进一步加剧本就供不应求的技术人才短缺问题。应提前做好准备。问问自己:我能做些什么来吸引人才?我该如何支持我的技术人员?
或许你尚未意识到这一点,但落后的危险已近在眼前。未来3到5年,若你在AI和ML如何用于抵御网络犯罪的知识和经验上尚未跻身前90%的行列,那你的职业前景和你公司的命运就危险了。
【本文是51CTO专栏作者“李少鹏”的原创文章,转载请通过安全牛(微信公众号id:gooann-sectv)获取授权】