AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

新闻 人工智能
最近,Facebook就出了这样一个语言模型DOBF,专治代码混淆。所有不影响运行的变量名、函数名、类名,都被替换成无意义的符号,AI都能作出猜测并尝试还原。

 [[414747]]

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

有的人能把代码写成推理小说。

需要一个临时变量的时候就叫temp,需要多个就叫var1var2

甚至用拼音缩写当函数名,比如查询订单就叫cxdd

要想看懂这样的代码,得联系上下文反复推敲,还原每个部分的真实作用。

这个过程叫做反混淆(Deobfuscation)。

麻烦,着实麻烦。就没有省事儿点的办法吗?

AI来啊!

最近,Facebook就出了这样一个语言模型DOBF,专治代码混淆。

像下图这种,所有不影响运行的变量名、函数名、类名,都被替换成无意义的符号,AI都能作出猜测并尝试还原。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

来看看和正确答案的对比,虽然不是完全一样,但AI的改法也大大提高了代码的可读性。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

像FUNC_0,源代码中是“重置参数”,AI改成“初始化权重”,也完全说得通。

DOBF模型目前除了Python还支持C++和Java。

编码不规范的人毕竟是少数,这个模型更广泛的用途是恢复故意做混淆以保护知识产权的代码,比如这种:

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

代码写好后,把不影响编译运行的部分,批量替换成人类难以分辨的符号,给破译增加难度。

在这之前也有掩码语言模型(Masked Language Model)用于恢复被遮蔽的文本。

用于恢复代码的有哈工大&微软开发的CodeBERT和Facebook之前开发的TransCoder,但效果都不如最新的DOBF。

DOBF超过它们靠的不是模型架构上的创新或数据集的完善,而是提出了新的预训练任务

合理的任务指导AI学习

之前的掩码语言模型多是随机选择要掩蔽的部分,经常会选到括号逗号这种对AI来说没什么难度的。

DOBF的做法是指定遮蔽变量名、函数名和类名并让AI去恢复,这个任务难度更大,能迫使AI学到更深层的规律。

另外还用相同的符号替代多次出现的同一名称,这样可以防止AI发现有的名字可以复制粘贴之后学会偷懒走捷径。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

像上图中的变量V3,AI从第3行的定义可以看出这个变量是List类型,再一看第5行调用的是pop(0)。

这不是先进先出嘛,AI就会命名成queue(队列)而不是stack(堆栈)了。

更厉害的还在后面,DOBF通过代码内容甚至能判断出相应函数是生成斐波那契数列做向量点积的。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

DOBF在架构上其实没有特别的设计,只是为了公平对比分别训练了两个和CodeBERT、TransCoder层数一样的模型。

成功的关键之处就在于合理的训练任务。

微调一下能完成更多任务

验证了这个方法有效后,Facebook把这个训练任务提取出来称为DOBF任务,还可以用于训练其他语言模型。

比如在TransCoder模型上把DOBF作为预训练任务,再用CodeXGLUE基准测试中的下游任务进行微调。

结果在代码抄袭检测总结代码生成文档、和自然语言搜索代码片段这3个任务上,使用DOBF或MLM+DOBF预训练都取得了更好的成绩。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

Facebook下一步还要以DOBF作为指导,看看能不能为自然语言设计更好的预训练目标。

不过代码上的事还不算完,人类在混淆代码上可是无所不用其极的。

期待着有一天,AI连国际C语言混乱代码大赛上的变态代码也能看懂。

AI根据代码内容自动起函数名,再也不怕命名不规范的同事了

Github地址:

https://github.com/facebookresearch/CodeGen/blob/master/docs/dobf.md

论文地址:

https://arxiv.org/abs/2102.07492

国际C语言混乱代码大赛:

http://www.ioccc.org/

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2020-01-21 21:15:16

WiFi网络WiFi6

2020-04-20 15:00:22

DevOps工具代码

2019-12-26 09:38:57

GitHub工具 wxpy

2021-08-12 11:05:07

C++语言内存泄露

2020-05-07 09:05:22

电脑Python代码

2022-04-14 10:22:30

NginxLinux

2020-05-07 16:08:28

Linuxshell命令

2021-05-08 07:53:33

面试线程池系统

2021-03-19 09:55:15

Linuxshell命令

2019-08-19 14:59:49

GitHub代码开发者

2022-09-20 14:30:24

脚本工具SQL数据库

2024-06-20 12:51:37

PythonTermcolor

2014-07-18 15:54:04

goTenna:随身无

2021-03-26 15:18:11

代码工具Mockoon

2018-05-18 14:39:46

华为 华为云

2020-07-14 20:03:55

Windows 10Windows微软

2020-04-30 09:19:56

Docker容器虚拟机

2023-11-28 17:49:51

watch​computed​性能

2021-12-21 09:05:46

命令Linux敲错

2021-11-10 23:26:27

iPhone手机屏幕
点赞
收藏

51CTO技术栈公众号