仅用5M数据超过 OpenAI？快手最新 Code Embedding 模型 OASIS(绿洲)发布原创

发布于 2024-12-2 09:45

浏览

0收藏

出品 | 51CTO技术栈（微信号：blog51cto）

最近，快手Kwaipilot 团队正式宣布开源 OASIS（Optimized Augmentation Strategy for Improved code Search）Code Embedding模型。快手 Kwaipilot 团队在代码表征领域实现了突破性进展，仅仅使用 5M Tokens数据大幅领先 OpenAI，在多个 Code Search benchmark 中显著超越现有最佳水平。

1.什么是代码表征?

随着代码库规模的持续扩大，开发者越来越依赖高效的代码检索系统来提升开发效率。传统的关键词匹配方法已经无法满足现代软件开发的需求。代码表征（Code Embedding）技术通过将代码片段转化为向量表示，使机器能够深入理解代码语义，从而实现更智能的代码检索。Code Embedding模型在代码检索、仓库级代码问答，代码补全等场景中发挥不可或缺的作用。

仅用5M数据超过 OpenAI？快手最新 Code Embedding 模型 OASIS(绿洲)发布-AI.x社区图 1. 代码表征搜索[1]

2.OASIS用了哪些黑科技？

OASIS 的训练只使用了 5M Tokens的数据，远低于 SOTA 模型的训练样本数，通过结合程序分析技术与创新设计的损失函数，以极低的成本就在多个测试集上超越了现有的 SOTA 模型。

具体来说，OASIS 模型采用了多项创新技术：

仓库级程序分析：传统方法仅关注单个代码片段，缺少代码的上下文信息，结合南方科技大学Arise实验室技术，OASIS 引入了仓库级别的程序分析技术。通过分析函数调用关系和依赖结构，模型能够更好地理解代码在更大上下文中的语义，相比于孤立地使用函数的 docstring，程序分析技术可以引入额外的上下文信息构建高质量样本对。
OASIS-instruct 数据合成算法：我们开发的专有数据增强策略能够自动生成高质量的训练样本。这些样本包含代码和自然语言的对应关系，使模型能够学习到更细腻的语义差异。
融合式损失函数：创新性地将多目标优化策略应用于模型训练，确保模型在保持传统Code Embedding模型能力的情况下，既能准确区分相似样本，又能识别细微的语义差异，在优化目标的角度添加了新的训练维度。

3.OASIS到底有多强？

仅用5M数据超过 OpenAI？快手最新 Code Embedding 模型 OASIS(绿洲)发布-AI.x社区

在权威的代码检索基准测试中，OASIS 展现出了令人瞩目的性能：

OASIS在训练过程中并不包含测试集提供的训练集的情况下，在 CSN、CoSQA、AdvTest 等主流评测集上，性能优越。平均检索准确率优于现有所有同尺寸的Code Embedding模型，具体来说，以5M数据训练在三个不同的代码检索数据集全面超越OpenAI-Ada-002，在模型尺寸仅为三分之一的情况下在平均检索成功率超越CodeFuse-CGE-Small，多个数据集领先明显。