嘉宾:史树明
撰稿:莫奇
审校:云昭
“大多数研究工作往往是围绕一个点展开,而点状的成果很难直接被用户所用。”腾讯 AI Lab 自然语言处理中心总监史树明说道。
过去十余年间,人工智能(AI)经历了复兴,其中很显著的技术进步也发生在自然语言处理(NLP)领域。NLP技术的进步使得机器翻译质量大幅提高,搜索和推荐更加精准,同时也催生了更多数字化场景应用,如对话机器人、智能写作等。那么,作为AI皇冠上的明珠,NLP领域在吸引了无数国内外企业、人才、资本的入圈后,各种要素都是如何推动其研究进展的?企业是如何将研究成果孵化落地的?相关从业者又是如何看待AI在发展中的瓶颈和争议的呢?
近日,"T前线"有幸采访了腾讯 AI Lab 自然语言处理中心,希望能借此由“人工智能实验室”的视角窥得其中一隅。
不止步于实验:还注重将成果的落地与开源
T前线:腾讯 AILab 实验室在自然语言处理方面,有哪些方向的探索呢?
史树明:腾讯 AI Lab 的自然语言处理团队在文本理解、文本生成、智能对话、机器翻译这四个方向上开展研究工作。成果方面,从论文发表情况来看,最近三年,团队每年在一流国际会议和期刊上发表50多篇学术论文,居国内研究机构前列;值得一提的是,我们有两篇论文分别被评为NAACL'2021的最佳论文和ACL'2021的杰出论文。学术比赛方面,我们多次获得重量级比赛的冠军,比如在去年的国际机器翻译大赛WMT'2021上获得5项任务的第一名。
除了论文和学术比赛之外,我们还有意识地把我们的研究成果转化成系统和开源数据,开放给公司内外用户使用。这些系统和数据包括文本理解系统TexSmart、交互翻译系统TranSmart、智能创作助手「文涌(Effidit)」、包含800万词汇的中文词向量数据等。
2018年底发布的中文词向量数据被外界称为“腾讯词向量”,它在规模、精度、新鲜度方面处在领先水平,受到业界的广泛关注、讨论和使用,在多项应用中不断提升性能。与同类系统相比,文本理解系统TexSmart提供细粒度命名实体识别(NER)、语义联想、深度语义表达、文本图谱等特色功能,荣获第十九届中国计算语言学大会(CCL'2020)最佳系统展示奖。交互翻译系统TranSmart是国内首个公开的交互翻译互联网落地产品,提供翻译输入法、约束解码、翻译记忆融合等亮点功能。它支持了公司内外众多的客户、业务和场景,包括联合国文件署、Memsource、华泰证券、腾讯音乐、阅文网文出海、腾讯游戏出海、腾讯自选股文档翻译等。前一段时间我们发布的智能创作助手「文涌(Effidit)」提供多维度的文本补全、多样化的文本润色等特色功能,用AI技术辅助写作者发散思路、丰富表达,提升文本编辑和写作的效率。
T前线:智能协作方面,能以「文涌(Effidit)」为例,谈一下项目的起源和最新情况吗?
史树明:智能写作助手Effidit项目是在2020年国庆节之前启动的。做这个项目主要有两方面原因:一是写作中存在痛点问题,二是这个场景所需要的NLP技术,与我们团队的能力积累相符。
首先来谈谈写作中的痛点:我们在生活和工作中经常需要阅读新闻、小说、公众号文章、论文、技术报告等,也需要写一些东西,比如技术文档、会议纪要、汇报材料等。我们可以发现,阅读的过程通常是轻松愉快、毫不费力的,但写作就不一样了,经常不知道怎样用合适的文字表达心中的想法,有时候费很大劲写出来的句子和段落还是显得干巴巴的,中间还容易出现错别字。或许大多数人更擅长阅读而不是写作吧。于是我们就想到能否利用技术来解决写作中的痛点问题,提升写作的效率?
再来谈谈启动这个项目的第二个原因:我们一直在思考NLP技术如何提升人类的工作效率和生活品质?过去几年,我们在文本理解、文本生成、机器翻译等NLP的子方向上开展了深入的研究工作。大多数研究工作往往是围绕一个点展开,而点状的成果很难直接被用户所用。因此我们下意识地把若干点状的研究成果串在一起,构成一条线,也就是一个系统。我们一直在寻找文本生成方向研究成果的落地场景。考虑到前面谈到的写作中的痛点,我们讨论后决定启动智能写作助手Effidit项目。
经过一年半的研发,第一个版本已经问世。接下来我们会持续迭代优化,听取用户反馈,提升各项功能的效果,力争产出一款好用的、受用户欢迎的工具。
可信AI:可解释性、鲁棒性研究尚需挖掘
T前线:近些年,可信AI得到了界内人士的关注,您能否谈一下在NLP领域内可信AI的理解与进展?
史树明:我对可信AI了解不多,只能谈一些粗浅的想法。可信AI是一个抽象的概念,目前还没有一个准确的定义。不过从技术角度来说,它包括很多要素:模型的可解释性、鲁棒性、公平性和隐私保护等。近年来,基于Transformer结构的预训练语言模型,在很多自然语言处理任务上展现出惊人的效果,引起了人们的广泛关注。然而,这类AI模型本质上是数据驱动的黑箱模型,它们对预测结果的可解释性较差、模型的鲁棒性也不是很好,而且它们容易学习到数据中固有的偏置(比如性别偏置),导致模型在公平性上也存在一些问题。比预训练语言模型更早出现的词向量也有性别偏置的问题。目前,一方面构建可信的AI模型是机器学习和NLP领域一个受关注的研究方向,有不少研究工作,也取得了一些进展。另一方面这些进展距离目标还差得很远,比如在深度模型的可解释性方面,进展还不算特别大,还没有迈出亮眼的关键一步。
我所在的腾讯AI Lab也正在可信AI方面开展一些研究工作。腾讯AI Lab自2018年起持续投入可信AI工作,并在对抗鲁棒性、分布迁移学习及可解释性三大方向取得了一些成果。未来,腾讯AI Lab将重点关注AI的公平性和可解释性,并持续探索相关技术在医疗、医药、生命科学等领域的应用。
难点聚焦:统计方法无法从根本上理解语义
T前线:您觉得现阶段 NLP 的研究的瓶颈在哪里?未来有哪些方向?
史树明:从自然语言处理这个研究领域出现以来,它所面临的最大瓶颈就是如何真正地理解一段自然语言文本所表达的语义。这个瓶颈到现在为止还没有被突破。
人类是真正具有理解自然语言的能力的,比如当我们看到“她喜欢蓝色”这个句子时,我们知道它的含义,知道什么是“喜欢”,什么是“蓝色”。而对于NLP算法而言,它在处理上述句子时跟我们看到一门不知名外语的句子“abc def xyz”没有本质区别。假设在这门不知名外语中,"abc"表示"她","def"表示喜欢,"xyz"表示"绿色"。当我们对这门外语一无所知的时候,我们是看不懂这门外语的任何句子的。如果我们有幸看到大量的用这门外语书写的句子,我们有可能在上面做一些统计分析,试图建立这门外语的单词跟我们母语中的词的对应关系,希望达到最终破解这门语言的目的。这个过程难度不小,不能确保最终能够成功。
对于AI来说,它所面临的情况比我们人类破译一门不知名外语还要糟糕。我们有生活的常识,有母语单词与头脑内部概念的映射,而AI则没有这些东西。NLP研究中的符号方法试图通过文本的符号化表达和知识图谱给AI附加跟人类类似的能力,试图从根本上解决理解的问题;而统计方法则是暂时忽略掉常识和头脑内部概念等,将着力点放在改进统计方法和充分利用数据本身的信息。到目前为止,第二种方式是业内研究的主流,也取得了更大的成功。
以统计NLP在最近十年的瓶颈突破和进展来看,词向量技术(即用一个中等维度的稠密向量来表示一个词)突破了词的可计算性瓶颈,结合深度学习算法和GPU算力,拉开了最近十年NLP一系列突破的序幕。新的网络结构(如Transformer)和范式(如预训练)的出现又大大提升了文本的可计算性和文本表示的效果。但由于统计NLP没有像人类那样很好地对常识和基础概念进行建模,无法从根本上理解自然语言,也就很难避免出现一些常识错误。
当然,研究界也始终没有放弃在符号化和深度语义表示方面的努力,最近十多年在这方面最有影响力的尝试包括Wolfram Alpha和AMR (Abstract Meaning Representation)等。这条路非常辛苦,面临的主要挑战是对大量抽象概念的建模以及可扩展性(即从理解高度正规化的句子扩展到理解一般的自然语言文本)。
未来在基础技术方面可能的研究方向包括:新一代语言模型、可控的文本生成、提升模型的跨领域迁移能力、有效融入知识的统计模型、深度语义表示等。这些研究方向对应的是NLP研究中一些局部的瓶颈。在应用方面需要探索的方向是如何利用NLP技术提升人类的工作效率和生活品质。
研究与落地:二者之间如何平衡?
T前线:AI Lab NLP方向在基础研究、前沿技术和工业化落地方面是如何探索和布局的?下一步打算有哪些?
史树明:在基础研究方面,我们的目标是寻求基础研究的突破,解决目前研究中的一些瓶颈问题,力争产出像Word2vec、Transformer、Bert那样原创性的、有用的、有重大影响力的成果。为了实现这个目标,我们一方面给基础研究人员以较大的自由度,鼓励做一些长远的有潜在影响力的事情;另一方面整个团队成员通过脑暴等方式,选择若干需要重点突破的方向,大家一起发力。
在工业化落地方面,除了面向公司现有的产品进行技术转化之外,重点打造一两款我们自己主导的技术产品,目标是融合研究成果,提升人的工作效率或生活品质。这些技术产品包括面向翻译人员的交互翻译系统TranSmart和面向文字编辑和写作场景的智能创作助手Effidit。我们会持续打磨这两款技术产品。
寻昆山之玉:研究人员需要一定的自由度
T前线:于科研部门而言,您觉得研究员与算法工程师有哪些不同的侧重?
史树明:在我们团队,算法工程师的职责包括两点:一是实现或优化现有的算法(比如某篇已经发表的论文中的算法),二是实现及打磨技术产品。而研究员的职责除了包括算法工程师的两个职责之外,还包括提出及发表原创性的研究成果。这种划分也不是绝对的,边界比较模糊,很大程度上取决于员工本人的兴趣以及项目的需要。
T前线:作为管理者,实验室的团队管理与传统的技术工程师管理的方法与理念有哪些不同?
史树明:对于业务团队来说,技术工程师需要紧密合作,通过一定的项目管理流程,把已经规划好的产品做出来。实验室团队往往由基础研究人员和技术工程师构成(可能还包括少量的产品和运营人员)。对于基础研究来说,需要给研究人员更大的自由度,少“指导”多帮助,尊重其兴趣,激发其潜能,鼓励其做一些长远的有潜在影响力的事情。基础研究的突破往往不是自上而下规划出来的,也不是通过项目管理流程管理出来的。另一方面,实验室团队在打造技术产品的时候,则需要研究人员和技术工程师更多地协同合作,辅之以轻量级的项目管理流程。
实验室AI岗位:选人更看重“三好”,内心足够强大
T前线:如果有一个应聘者,研究能力很强,在高水平会议上发表了很多论文,但工程化能力较差,您会录用吗?
史树明:这个问题很好,这是我们招聘时经常遇到的问题。理想情况下,学界和业界都希望培养或招募到研究能力和工程能力都非常强的人才,但是这样的人在实际当中凤毛麟角,往往还是各个公司和研究机构争抢的对象。在面试过程中,对于研究能力特别出众的候选人,我们对其工程能力的要求会相应降低,但必须高于一个基础阈值。同样,对于工程能力超强的候选人,我们对其研究能力的要求也会降低一些。在实际工作过程中,如果安排得当,研究能力强的和工程能力强的员工通过合作会发挥各自的优势,一起把项目完成好。
T前线:您最看重候选者哪些能力?
史树明:沈向洋博士说过招人的要求是“三好”:数学好、编程好、态度好。数学好对应的是一个人的研究潜力,编程好对应的是工程能力,而态度好则包含“对自己的工作充满激情”、“与同事能够合作共赢”、“做事靠谱”等内容。这三点是很多研究机构所看重的。实际面试过程中往往通过看论文发表记录和聊项目来评估候选人的研究能力以及潜力,通过编程测试和项目产出来评估候选人的工程能力,通过整体的面试过程来推测候选人是不是真的“态度好”。这种推测和评估的方式有时会看走眼,但总体来说准确度还是挺高的。
还有一些能力很难通过一两个小时的面试去判断,但是如果招进来的员工具有这些能力,就算是捡到宝了。第一是选择重要的研究课题的能力。第二是完成一件事情的能力。缺乏这种能力的人或团队可能总是频繁地启动各种课题或项目,但是这些课题和项目总是不能被高质量地完成,而往往是虎头蛇尾,不了了之。这里面可能跟执行力、毅力、聚焦意识、技术水准等都有一些关系。第三是忍受孤独和非议的能力。重要的有影响力的事情,在影响力出来之前往往不被大多数人理解;如果内心不够强大,不能忍受孤独和非议的话,可能很难坚持下去,从而很容易放弃初心,跳入已经是红海的当前热点中去内卷。
T前线:目前对于应届毕业生和转行进入人工智能领域的技术人分别有哪些建议?
史树明:每位毕业生的学历、在读学校和参与项目情况各不相同,转行进入人工智能的技术人在专业和人生经历方面更是千差万别,很难给出太多普适的建议。暂时只能想到几点:第一,千万不要只埋头做事情而忽略了信息和情报的收集。多找几位师兄师姐或朋友打听情况,听他们介绍当前工作的情况以及对不同的工作类型和各个工作单位的评价,了解他们走过的路、踩过的坑。同时通过论坛、公众号、短视频等多种方式收集信息,帮助自己在这个人生的关键节点来做决策。第二,如果你距离毕业还有一年以上的时间并且还没有实习经历的话,找一个靠谱的地方做实习。通过实习,一方面可以积累实战经验,提升能力,提前体验工作的感觉;另一方面实习经历也会让你的简历更加丰满,提升找工作时的竞争力。第三,工作中内卷总是难免的,事事如意也是不可能的,控制预期,调整好心态,想办法消化转变所带来的落差情绪。第四,安顿下来之后,别忘了自己的梦想,努力奋斗,完成一件对得起自己能力的事情。
祝每一位毕业生能找到心仪的工作并在工作岗位上得到成长,祝每一位转行进入人工智能领域的技术人能够在AI这个新赛道享受奋斗带来的快乐和收获。
嘉宾介绍
史树明,毕业于清华大学计算机系,目前是腾讯 AI Lab 自然语言处理中心总监。他的研究兴趣包括知识挖掘、自然语言理解、文本生成以及智能对话。他在ACL、EMNLP、AAAI、IJCAI、WWW、SIGIR、TACL等学术会议和期刊上发表了100多篇论文,H-index为35。他曾担任EMNLP 2021和CIKM 2013的系统展示主席(demonstration co-chair),KDD2022的资深程序委员会委员,以及ACL、EMNLP等会议的程序委员会委员。