过去10余年间,人工智能(AI)经历了一次复兴,其中最重要的技术进步之一发生在自然语言处理(NLP)领域。
2006年谷歌发布了万亿词语料库——Trillion Word Corpus,并从大量的公共网页中获得了n-gram频率;2010年ImageNet制作了一个包含2万张内容标签的图片的公开语料库;2014年微软推出人机对话交互平台“小冰”,对话数据累计超过300亿轮……
NLP技术的进步使得机器翻译质量大幅提高,也催生了更多数字化场景应用,随之国内NLP产业也迎来快速发展。据艾瑞咨询等统计研究,2021年中国NLP核心产品及相关产业规模超1000亿元;2022年预计NLP核心产品及相关产业规模将达到1500亿元;到2025年,这一规模将达2400亿元。
浪潮之下,NLP产品路径通用性与专用性的要素之争,人工智能下半程的技术趋势如何,中国NLP发展又将走向何方?
恰逢国内领先的跨领域多模态自然语言处理方案商、服务商、运营商——中科凡语成立4周年之际,笔者邀请到了中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士,就以上问题作探讨解读,共同探讨关于NLP的技术前沿与产业趋势。
中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士
从通用到定制形成动态闭环,搭建NLP底层技术平台
此次采访时已经是晚上9点,刚刚忙完工作的周玉通过电话接受了笔者的采访,期间周玉条分缕析的讲了一个多小时,言谈间难掩创业的兴奋与激情,语气铿锵有力,思维逻辑清晰,论据详实充分。见微知著,或许正是这样严谨端正的态度,才使其脱颖而出成为NLP学界为数不多的顶尖女性学者、创业者。
深耕NLP领域多年,周玉对NLP领域发展前景自是十分看好,但在谈到目前主流NLP产品的应用落地时深感任重道远。
周玉坦言,虽然未来十年在产业界被公认为NLP技术发展黄金期,但产品落地方面,尚有许多问题亟待解决。“较为典型的问题有两个,一是高定制化场景带来的高沟通门槛,使得技术人员和需求方往往需要多次磨合,沟通效率较低;二是要开发通用性较强的产品,对不同领域、不同场景的应用会需要不同的业务数据支撑,适配过程较为漫长。”
面对NLP产品的定制化和通用性难题,中科凡语的产品开发路径或许对行业有一定启示。周玉表示,NLP的产品落地的特殊性在于其必须要有一个定制化的过程,但是先通用还是先定制,这其实有点类似“先有鸡还是先有蛋”的哲学思考,具体实践时其实是更偏向于一种动态化的闭环。
“早期,可以面对不同行业领域客户先提炼出共性需求,搭建一个通用的技术框架,满足基础的模块功能;然后再构建通用场景的通用产品;之后再迁移到特定场景进行定制化开发;最后在定制化过程中再衍生出面向特定场景的产品。总的来看,其实是在动态演化过程中不断完善迭代。”
以OCR翻译(图像识别翻译)为例,目前市面上常见的方法是先做OCR的识别,然后再机器翻译,但此类方式普遍面临效率低、场景识别弱、复杂场景效果差等问题。中科凡语基于这些痛点,会先提供通用性较强的OCR模块产品部署到客户端,满足当下迫切需求,然后再通过实际应用中的反馈、长尾效应等搜集问题和需求,再通过技术人员进行二次深度开发,最大化的平衡客户需求与产品性能之间的锚点。
周玉直言,“NLP产品开发的底层逻辑是技术储备,技术储备越丰富,通用技术模块越成熟,迁移成本就会越低,在特定行业的产品化效率也就越高,行业壁垒也就随之建立起来。”
这一开发逻辑,从中科凡语过往的产品中清晰可循。比如“信译”是基于为用户提供优质、专业、准确、高效的机器翻译服务;“信推”是针对长文本完成多模态自动摘要生成和关键词提取及内容推送;“信取”则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理,等等。
“目前中科凡语所推出的‘五信’,‘飞译’或是‘洞知’产品,都是基于客户普遍的共性需求所建立的。未来的产品开发,我们还是将继续朝着系统化、模块化、工具化的方向出发,为客户提供更易组装、更加灵活、适用性更强的智能服务产品,构建多模块、广适用、高精度的底层NLP技术平台。”周玉说到。
专业领域亿级语料数据 为行业发展提供动力
如果说产品路径与架构搭建了NLP技术的经脉,那么数据,或者更确切说是来自专业领域内的高质量标注数据,则是当前AI深度学习时代下NLP技术的血液,为NLP技术推动产业发展提供关键动力。
在刘慈欣的科幻小说《诗云》中,曾畅想过这样一幅“技术与艺术对抗”的终极浪漫场景:一个高等外星文明为了写出超越李白的诗歌,穷尽了太阳系的大部分能量,列举出了所有可能的字词组合,最终,他们“借助伟大的技术,写出了诗词的巅峰之作”,却还是选择了认输,因为他们“不可能把它们从诗云中检索出来”。
标注数据之于NLP,颇有异曲同工之妙。NLP技术本质上是基于深度学习的,相比于视觉或音频信息,自然语言更加抽象,蕴含了更加丰富的人类定义的知识,导致相比其他AI技术领域,NLP对标注数据的要求也更严苛、难度更大。可以说,NLP的技术效果很大程度上取决于标注数据的质量和规模。
如何获得高质量、大规模的标注数据?
周玉表示,“数据标注并非只是简单的数据层面的问题,相较图像、视频等类型,NLP采标方式更为复杂,难度大很多,因此更需要标注人员、标注数据和和算法三方面的协同作战。”
为此,中科凡语作了大量的基础准备工作。“在标注人员方面,比如以翻译样本标注为例,考虑到翻译人员对语言语种的专业性涉猎,中科凡语同全国100多所高校外国语学院达成了合作,并建立了与之相对应的人物画像,丰富语种人才库的同时,进一步降低了适配时间,提升适配效率;在标注数据方面,分层分级,重点筛选种子样本,因为相较普通样本,种子样本往往能起到1比20的效果;再通过不断优化迭代算法方面的优势,来最大化的降低标注成本,筛选出有价值的数据。”周玉解释到。
同时,通过前台数据与后台算法的深度绑定,中科凡语进一步提升了数据储备的质量和规模。“前台数据一旦有更新的标注,后台算法也会相应进行优化,确保标注数据的高质量高精度;再通过工程化开发来减轻数据标注中的重复劳动,提升业务效率,进而形成一个良性的闭环。”
基于中国科学院自动化研究所相关团队20余年的积累以及同广大国内语言类高校的深入合作,中科凡语目前已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料及大规模涵盖多语言、多领域、多场景、多任务、多层次的高精准标注语料,NLP语料数据方面行业领先。同时,通过创新迭代的智能化标注算法,中科凡语也在不断充实NLP语料池,着力挖掘大规模、高质量的标注数据,致力为NLP行业的场景定制、技术突破、产业发展等提供源源不断的动力。
高质量的标注数据不仅带来效率提升、技术升级,更是NLP发展的必然趋势。现今,数据标注正处于早期阶段,但可以预见的是,随着人工智能的浪潮进入下半场,数据标注将迎来井喷期,促进感知智能向认知智能的转变。
深耕行业夯实优势,NLP下一个十年中文论剑
毋论产品路径与技术趋势如何领先,NLP发展最终还是要归到产业应用的“肌肉”上来看。
纵观国内外NLP产业发展现状,国外NLP技术由于起步早、技术领先,而国内目前则处于奋起直追阶段。据伦敦帝国理工学院对NLP相关会议论文统计显示,自2012年至2020年期间,美国以近4000篇论文的数量遥遥领先,中国位居第二。随着中国企业逐渐从“辅助角色”进化为中坚力量,“学术界+工业界”的双轮驱动推动中国AI力量悄然变化。
以中科凡语为例,作为孵化于中国科学院自动化研究所的国产NLP领域先行者,承接了研究所相关团队过去20多年在NLP领域技术积累,在技术、数据乃至人才方面都有着天然优势。成立四年来,中科凡语已成功落地了100多家G端客户、50余家B端客户,同时还承担了多项国家和政府重大需求项目,例如为“一带一路”沿线国家提供翻译、信息整合及分析服务等,未来还将持续深耕认知智能、通用智能、因果推断等技术领域,进一步推动NLP成果产业化。
值得一提的是,中科凡语还于2020年11月成立了凡语AI研究院,共吸引高级发展顾问、教授级专家委员、博士青年委员等60多人加入,涵盖NLP领域技术大牛、业务精英以及语言专家等,旨在吸引行业顶尖人才共同进行前沿研究,夯实中科凡语在NLP领域的领先竞争优势,并不断探索新的基础模型与技术路线,建立竞合协同的行业生态。
此外,其他业界知名公司如百度、阿里、腾讯、华为、今日头条等,也在结合自身固有业务优势,在NLP领域持续投入研发,加速业务变革与升级。
除了学术界与工业界,国家相关政策也持续出台,重点扶持人工智能相关产业发展。
2019年,由科学技术部发布的《国家新一代人工智能开放创新平台建设工作指引》中指出,要鼓励人工智能细分领域领军企业搭建开源、开放平台,面向公众开放人工智能技术研发资源,向社会输出人工智能技术服务能力。
2020年7月,由中央网信办等五部门发布的《国家新一代人工智能标准体系建设指南》中也强调,到2023年要初步建立人工智能标准体系,重点研制数据、算法、系统、服务等重点急需标准。
《中国制造2025》《“十四五”规划纲要》等重要政府文件中,都明确了人工智能在我国未来科学研究和产业发展中的重要作用。
……
尽管目前出现了一些挑战与瓶颈,但总的来看,在政策红利和蓝海市场的双重利好下,NLP 已步入发展快车道,并涌现了许多商业化应用,如机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等。
随着AI技术不断走向“深水区”,作为AI最高层次的NLP也将伴随着数智化的产业趋势快速迭代更新。就像《技术的本质》中所说的,“技术是高度可重构的,它们是流动的东西,永远不会静止,永远不会完结,永远不会完美。”
周玉对此深以为然:“NLP技术的发展永远没有终点。中科凡语希望能通过本身在NLP领域积累的人才、算法、数据等优势,联合业界的专家学者、行业精英,一同做NLP最前沿技术和应用的探讨,无限逼近甚至超越人类的理解能力,用我们这一代人的努力扛起国产NLP发展的大旗。”
正是无数这样的科学家、创业者、奋斗者的星聚,才推动着中国NLP技术在这十余年来的快速进步,并不断建设世界范围的中文信息处理影响力。
相信下一个十年,NLP将迎来中文论剑的时代。