日前,阿里云数据库参加耶鲁大学Spider数据集评测,以78分的成绩排名榜单第一。这一成绩证明了阿里云数据库在NL2SQL技术上的国际领先性。据了解,Spider是业界公认的大规模跨领域复杂NL2SQL转换效果的评测榜单。
NL2SQL(Natural Language to SQL)是一项将用户的自然语句转为数据库可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义。Spider数据集是耶鲁大学提出的一个较大规模的NL2SQL数据集,包含了10000多条自然语言问句,内容覆盖了100多个不同的领域,贴近真实场景,难度非常高。
日前,阿里云数据库团队研发的CatSQL技术参加评测,并获得Spider数据集评测第一名的好成绩。78分的成绩,显著超过第二名0.4分,尤其是模型规模仅为第二名的1/7,且计算速度提升10倍以上。
达摩院智能数据库实验室负责人谭剑介绍:为提升NL2SQL转换效果,现阶段业界的一个趋势是使用越来越大的模型,而在这次测评中,阿里云数据库团队另辟蹊径,采用了小模型,在获得了几乎一个数量级的吞吐率提升的同时,还取得了更好的准确率;该方法也开辟了NL2SQL的一个新思路,即把自然语言技术与数据库领域知识紧密结合,从SQL语义的角度提升NL2SQL的准确性,也更加保证了在实际商用场景中的有效性。
谭剑表示,“最新的成绩说明,NL2SQL技术已经日臻成熟,在准确性和实用性上逐渐达到了部分复杂场景的商用要求。”
据透露,阿里云数据库团队在NL2SQL方向上已经进行了两年多的自研工作,并已经把这些前沿技术在相关数据库产品中落地使用,有效的简化了用户查询数据库的方式。比如,阿里云数据库的一站式数据管理平台DMS上,就采用了自研CatSQL技术,通过自然语言交互的方式帮助客户更高效的进行数据资产管理。
据了解,阿里云自成立以来就十分重视数据库前沿技术研究,并为此成立专门的研究机构——达摩院数据库与存储实验室。过去几年,阿里云数据库团队有50多篇论文被国际顶级会议和期刊收录,获得了近千项国内外专利,并实现自研数据库拥有存储计算分离、三层解耦、多主架构、HTAP、Serverless、一体化分布式、全加密、智能与自治化等创新能力。
公开资料显示,阿里云拥有国内最丰富的云数据库产品家族,云数据库市场份额位居国内第一。据国际权威机构Gartner年度全球云数据库魔力象限评估报告,阿里云作为中国唯一的科技公司代表,于2020年和2021年连续两年进入领导者(LEADERS)象限。这标志着中国数据库40年来首次进入全球顶级数据库行列。