如何使用OpenAttack进行文本对抗攻击

安全 数据安全
OpenAttack是一款专为文本对抗攻击设计的开源工具套件,该工具基于Python开发,可以处理文本对抗攻击的整个过程,包括预处理文本、访问目标用户模型、生成对抗示例和评估攻击模型等等。

[[420232]]

关于OpenAttack

OpenAttack是一款专为文本对抗攻击设计的开源工具套件,该工具基于Python开发,可以处理文本对抗攻击的整个过程,包括预处理文本、访问目标用户模型、生成对抗示例和评估攻击模型等等。

功能&使用

OpenAttack支持以下几种功能:

  • 高可用性:OpenAttack提供了易于使用的API,可以支持文本对抗攻击的整个过程;
  • 全面覆盖攻击模型类型:OpenAttack支持句子/单词/字符级扰动和梯度/分数/基于决策/盲攻击模型;
  • 灵活性强&可扩展:我们可以轻松攻击定制目标用户模型,或开发和评估定制的攻击模型;
  • 综合评估:OpenAttack可以从攻击有效性、对抗示例质量和攻击效率等方面全面评估攻击模型;

OpenAttack的使用范围非常广,其中包括但不限于:

  • 为攻击模型提供各种评估基线;
  • 使用其全面评估指标综合评估攻击模型;
  • 借助通用攻击组件,协助快速开发新的攻击模型;
  • 评估机器学习模型对各种对抗攻击的鲁棒性;
  • 通过使用生成的对抗示例丰富训练数据,进行对抗训练以提高机器学习模型的鲁棒性;

工具模块

工具安装

我们可以使用pip安装,或者克隆该项目源码来安装OpenAttack。

使用pip安装(推荐):

  1. pip install OpenAttack 

克隆代码库:

  1. git clone https://github.com/thunlp/OpenAttack.git 
  2. cd OpenAttack  
  3. python setup.py install 

安装完成之后,我们可以尝试运行“demo.py”来检测OpenAttack是否能够正常工作:

使用样例

(1) 基础使用:使用内置攻击模型

OpenAttack内置了一些常用的文本分类模型,如LSTM和BERT,以及用于情感分析的SST和用于自然语言推理的SNLI等数据集。

以下代码段显示了如何使用基于遗传算法的攻击模型攻击SST数据集上的BERT:

  1. import OpenAttack as oa  
  2. # choose a trained victim classification model  
  3. victim = oa.DataManager.load("Victim.BERT.SST")  
  4. # choose an evaluation dataset  
  5. dataset = oa.DataManager.load("Dataset.SST.sample")  
  6. # choose Genetic as the attacker and initialize it with default parameters  
  7. attacker = oa.attackers.GeneticAttacker()  
  8. # prepare for attacking  
  9. attack_eval = oa.attack_evals.DefaultAttackEval(attacker, victim)  
  10. # launch attacks and print attack results  
  11. attack_eval.eval(dataset, visualize=True

(2) 高级使用:攻击自定义目标用户模型

下面的代码段显示了如何使用基于遗传算法的攻击模型攻击SST上的自定义情绪分析模型:

  1. import OpenAttack as oa  
  2. import numpy as np  
  3. from nltk.sentiment.vader import SentimentIntensityAnalyzer 
  4.  
  5.    
  6. # configure access interface of the customized victim model  
  7. class MyClassifier(oa.Classifier):  
  8.     def __init__(self):  
  9.         self.model = SentimentIntensityAnalyzer()  
  10.     # access to the classification probability scores with respect input sentences  
  11.     def get_prob(self, input_):  
  12.         rt = []  
  13.         for sent in input_:  
  14.             rs = self.model.polarity_scores(sent)  
  15.             prob = rs["pos"] / (rs["neg"] + rs["pos"])  
  16.             rt.append(np.array([1 - prob, prob]))  
  17.         return np.array(rt)  
  18. # choose the costomized classifier as the victim model  
  19. victim = MyClassifier()  
  20. # choose an evaluation dataset 
  21. dataset = oa.DataManager.load("Dataset.SST.sample")  
  22. # choose Genetic as the attacker and initialize it with default parameters  
  23. attacker = oa.attackers.GeneticAttacker()  
  24. # prepare for attacking  
  25. attack_eval = oa.attack_evals.DefaultAttackEval(attacker, victim)  
  26. # launch attacks and print attack results  
  27. attack_eval.eval(dataset, visualize=True

项目地址

OpenAttack:【GitHub传送门

 

责任编辑:赵宁宁 来源: FreeBuf
相关推荐

2016-10-20 14:22:46

2018-03-27 13:33:48

百度

2023-06-11 17:00:06

2016-11-16 15:05:42

情感分析

2020-09-18 06:51:05

攻击文本构造

2017-04-07 09:00:46

UbuntuVim文本选择

2020-12-31 05:37:05

HiveUDFSQL

2023-07-05 07:36:36

SpringJava代码

2022-08-17 12:35:26

Linux sed编辑器

2019-04-26 12:36:03

2011-09-01 18:54:29

WifiGoodReader

2023-11-28 09:00:00

机器学习少样本学习SetFit

2023-04-20 14:58:54

2023-11-13 18:37:44

2023-04-17 11:42:07

2018-11-16 10:10:09

2021-07-27 07:31:16

CSS 元素切换

2010-03-12 19:29:15

python svn脚

2010-09-13 10:45:04

2016-12-14 09:32:49

FileChanne文件复制
点赞
收藏

51CTO技术栈公众号