【模型测试】大模型评测工具OpenCompass使用方法总结原创

一起AI技术

发布于 2025-3-20 09:44

浏览

0收藏

前言

由于使用 lm_evaluation_harness 工具评测时，遇到较多复杂的问题不好处理，例如：

连接huggingface 下载tokenizer 被墙；
评测API 时需要服务器支持LogProbs 等问题
源代码较为晦涩难懂，Readme 文档不详细....

导致评测工具的使用成本以及体验不佳，因此我们寻求一款国产的、源码可读性高，文档详细的评测工具：OpenCompass。

简介

OpenCompass 是由上海人工智能实验室推出的开源大模型评测体系，主要特点包括：

全能力评估- 提供50+评测数据集，覆盖语言/知识/推理/创作等七大能力维度
多模型支持- 支持HuggingFace/API等50+主流模型接入，包括LLaMA/GLM/ChatGPT等
本土化优势- 内置文言文理解、法律伦理等中文特色评测维度
说明文档全- 提供了详细的说明文档，包括安装、使用、配置等

仓库地址：https://github.com/open-compass/opencompass说明文档：https://opencompass.readthedocs.io/zh-cn/latest/get_started/quick_start.html

【模型测试】大模型评测工具OpenCompass使用方法总结-AI.x社区

使用方法

1. 创建虚拟环境

conda create --name opencompass pythnotallow=3.10 -y
conda activate opencompass1.
2.

2. 安装工具

该工具提供 pip install 和 源码 两种安装方式。由于我们后续需要自定义评测模型的 API 以及数据集，所以此处选择源码方式安装。

git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .1.
2.
3.

3. 安装依赖

# 安装sentencepiece
pip install torch sentencepiece protobuf1.
2.

# 安装torch
pip install torch torchvision torchaudio1.
2.

4. 获取API Key

访问Deepseek官网的开发者平台，获取 API Key 以及 API URL。

在本地新建Jupyter Notebook文件，测试API是否可用。

# 测试API可用
from openai import OpenAI
openai_api_key = "sk-fe599*******"
openai_api_base = "https://api.deepseek.com/"
model = "deepseek-chat"


client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model=model,
    messages=[
        {"role": "system", "content": "你是一个很有用的助手。"},
        {"role": "user", "content": "中华人民共和国的首都是哪里？"},
    ]
)
print(chat_response.choices[0].message.content)1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

运行后，API正常返回：

中华人民共和国的首都是北京。北京是中国的政治、文化、国际交往和科技创新中心，承载着中华民族的悠久历史和灿烂文化，同时也是中国共产党中央委员会、全国人民代表大会和国务院等国家最高权力机关的所在地。北京的发展成就充分展示了中国特色社会主义制度的优越性和中国共产党领导的伟大力量。1.

5. 创建API测试脚本

在OpenCompass工程目录下，按照如下路径创建.py文件

代码路径：opencompass/configs/models/openai/custom_api.py

代码内容：

import os
from opencompass.models import OpenAISDK


internlm_url = 'https://api.deepseek.com/'                                    # 前面获得的 api 服务地址
internlm_api_key = "sk-fe5990***"                                             # 前面获得的 API Key

models = [
    dict(
        type=OpenAISDK,
        path='deepseek-chat',               # 请求服务时的 model name
        key=internlm_api_key, 
        openai_api_base=internlm_url, 
        rpm_verbose=True,                   # 是否打印请求速率
        query_per_secnotallow=0.16,              # 服务请求速率
        max_out_len=1024,                   # 最大输出长度
        max_seq_len=4096,                   # 最大输入长度
        temperature=0.01,                   # 生成温度
        batch_size=1,                       # 批处理大小
        retry=3,                            # 重试次数
    )
]1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.

6. 配置测试数据集

代码路径：opencompass/configs/datasets/demo/demo_cmmlu_chat_gen.py

代码内容：

from mmengine import read_base

with read_base():
    from ..cmmlu.cmmlu_gen_c13365 import cmmlu_datasets


# 每个数据集只取前2个样本进行评测
for d in cmmlu_datasets:
    d['abbr'] = 'demo_' + d['abbr']
    d['reader_cfg']['test_range'] = '[0:1]' # 这里每个数据集只取1个样本, 方便快速评测.1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

解释说明：CMMLU（Chinese Massive Multitask Language Understanding）是一个专门针对中文语言模型设计的综合性评估基准，主要特点包括：

领域覆盖：

包含67个学科主题
涵盖自然科学（物理/化学/生物）
社会科学（历史/法律/心理学）
工程技术（计算机/电子工程）
人文艺术（文学/哲学）等

题目类型：

单项选择题
多项选择题
推理判断题
知识应用题

评估目标：

测试模型的中文语言理解能力
评估跨学科知识掌握程度
检验复杂推理和问题解决能力
验证实际场景应用能力

7. 运行测试

完成上述的代码修改以及配置后，在OpenCompass工程目录下，运行如下命令：

python run.py --models custom_api.py --datasets demo_cmmlu_chat_gen.py --debug1.

运行结果：

【模型测试】大模型评测工具OpenCompass使用方法总结-AI.x社区

内容小结

相比lm_evaluation_harness 工具，OpenCompass 的源码可读性更高，文档更详细，使用成本更低。
OpenCompass 支持多种评测数据集，包括CMMLU、C-Eval、C-MTEB等，方便用户选择合适的评测数据集。
OpenCompass 支持本地部署和API调用两种评测方式，方便用户选择合适的评测方式。
除此之外，OpenCompass 是果然评测软件，更加适合国情。

本文转载自公众号一起AI技术作者：热情的Dongming

原文链接：https://mp.weixin.qq.com/s/O_xh6yq-bYev9vFNe2b-tA

标签

大模型

模型测试

开源

已于2025-3-20 09:44:35修改

社区头条

相关推荐

如何测试大模型

51CTO技术栈 • 2783浏览 • 0回复
ChemBench：大语言模型化学能力评测数据集

恋恋青鸟 • 3144浏览 • 0回复
LLMCompiler：大模型的并行工具调用

AIGC最前线 • 3276浏览 • 0回复
模型更新，评测集优化：多模态大模型评测升级！

恋恋青鸟 • 3940浏览 • 0回复
LLM 预训练加速的新方法：八种模型增长方案总结

amei2000go • 3392浏览 • 0回复
大模型（LLM） API的使用，免费获取试用API方法，付费API计费方式

AIRoobt • 1.1w浏览 • 0回复
大模型技术细节——大模型之文本生成与文档总结

AI探索时代 • 4507浏览 • 0回复
大模型面经——LoRA最全总结

shizhi02 • 1676浏览 • 0回复
大模型面经——Langchain总结

shizhi02 • 1317浏览 • 0回复
大模型面经——MoE混合专家模型总结

shizhi02 • 1517浏览 • 0回复
如何使用BART模型和Hugging Face Transformers总结文本？

51CTO内容精选 • 1628浏览 • 0回复
生产环境测试模型的四种方法

鱼虫子 • 1224浏览 • 0回复
多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

十一月雨_55 • 6823浏览 • 0回复
Kaggle大模型竞赛优胜方案总结与思考

arnoldzhw • 2108浏览 • 0回复
大语言模型评测中的评价指标：方法、基准和最佳实践

芝士AI吃鱼 • 6426浏览 • 0回复
如何全面评估多模态大模型能力？MLLM评测任务与指标总结

shizhi02 • 5347浏览 • 0回复
长文 | 大模型Post-Training总结

NLP工作站 • 1569浏览 • 0回复
如何使用模型上下文协议构建自定义工具

51CTO内容精选 • 1075浏览 • 0回复
DeepSeek的三种接入使用方法

一起AI技术 • 1192浏览 • 0回复

一起AI技术

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

【模型测试】大模型评测工具OpenCompass使用方法总结原创

前言

简介

使用方法

1. 创建虚拟环境

2. 安装工具

3. 安装依赖

4. 获取API Key

5. 创建API测试脚本

6. 配置测试数据集

7. 运行测试

内容小结

目录

51CTO

51CTO博客

51CTO学堂

【模型测试】大模型评测工具OpenCompass使用方法总结 原创

前言

简介

使用方法

1. 创建虚拟环境

2. 安装工具

3. 安装依赖

4. 获取API Key

5. 创建API测试脚本

6. 配置测试数据集

7. 运行测试

内容小结

目录

【模型测试】大模型评测工具OpenCompass使用方法总结原创