港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力
论文题目:ClongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels论文地址:https:arxiv.orgabs2403.03514代码地址:https:github.comzexuanqiuCLongEval01研究背景和贡献为了使LLM能够支持更复杂和多样化的应用,越来越多的研究致力于扩展LLM能够处理的上下文窗口。为了评估这些longcontextLLM支持长上下文能力,目前英文领域有几个数据集被提出(如LongBench,LEval,LooGLE)。然而,在中...