鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Arena-Hard：开源高质量大模型评估基准

发布于 2024-4-23 13:26

浏览

0收藏

开发一个安全、准确的大模型评估基准通常需要包含三个重要内容：1）稳定识别模型的能力；2）反映真实世界使用情况中的人类偏好；3）经常更新以避免过拟合或测试集泄漏。

但传统的基准测试通常是静态的或闭源的，同时大模型的技术发展和功能迭代比较，这凸显了建立具有高可分离性评估基准的必要性。

大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。

开源地址：https://github.com/lm-sys/arena-hard

Arena-Hard：开源高质量大模型评估基准-AI.x社区

Lmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天大模型基准测试 MT Bench 进行比较。

结果显示，Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性，且置信区间更窄。它还与 Chatbot Arena（仅限英文）的人类偏好排名具有更高的一致性（89.1%）。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

Arena-hard-v0.1与广泛采用的大模型基准相比显示出最高的可分离性 (87.4%)，并且也便宜且运行速度快（25 美元）。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

Arena-hard-v0.1构建了一个管道，可以从通过 Chatbot Arena 收集的 200,000 个用户查询的数据集中自动提取高质量提示。这包括多样性，提示集应涵盖广泛的现实世界主题；提示质量，每个提示都应具有高质量来衡量大模型的水平。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

为了确保提示多样性，Lmsys在BERTopic中采用主题建模管道，首先使用 OpenAI 的嵌入 (text-embedding-3-small) 转换每个提示，使用 UMAP 降维，并使用基于层次的聚类算法 (HDBSCAN) 来识别聚类然后使用 GPT-4-turbo 进行总结。这有助于Lmsys识别涵盖广泛领域的 4000 多个主题。

但主题集群在大模型基准测试中具有不同的质量和可分离性。Lmsys为大模型开发了一个经过校准的系统提示，帮助其根据七个关键标准例如，特异性、领域知识、问题解决能力等选择高质量的用户查询。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

大模型Judge（GPT-3.5-Turbo、GPT-4-Turbo）对每个提示进行注释，从 0 到 7，以指示满足多少个标准。然后，Lmsys根据提示的平均得分对每个簇进行评分。

下面，Lmsys展示了从低到高平均分数的主题集群示例。例如，游戏开发或数学证明。另一方面，得分较低的集群指向琐碎或模糊的问题，例如“设计风格和影响”。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

为了了解提示分数是否与可分离性相关，Lmsys对每个分数采样 50 个提示，并比较 GPT-4 和 Llama-70b 的响应，并以 GPT-4-Turbo 作为判断。

Lmsys表示高潜在得分与 GPT-4 对 Llama-70b 的胜率之间存在很强的相关性。在其他模型对中也观察到类似的趋势，例如Claude Sonnet 与 Haiku 以及Mistral-large 与 Mixtral。

Arena-Hard：开源高质量大模型评估基准-AI.x社区

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/fwsrEzdmVV2Wc-Qp7-hGMg

标签

赞

收藏

回复

举报

回复

相关推荐

ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据

轻薄滴假象 • 1586浏览 • 0回复
Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

轻薄滴假象 • 1102浏览 • 0回复
七个高质量润色论文和文章的指令

数师兄 • 1850浏览 • 0回复
CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

轻薄滴假象 • 1422浏览 • 0回复
Advanced RAG 08：使用 Self-RAG 打造高质量、可追溯的 RAG System

Baihai_IDP • 1366浏览 • 0回复
靠Scaling Laws炼出4D版视频生成模型，多伦多大学北交大等携手开源81K高质量数据集

Crystalcxt • 781浏览 • 0回复
仅需1分钟，文本生成高质量3D模型—Meta 3D-Gen

Aceryt • 1501浏览 • 0回复
大模型微调技巧 | 高质量指令数据筛选方法-MoDS

NLP工作站 • 1641浏览 • 0回复
快速和高质量的3D编辑和身份保持新策略：DreamCatalyst

angel • 1341浏览 • 0回复
1890美元训出11.6亿参数高质量文生图模型

duhorse • 691浏览 • 0回复
国外惊讶，中国文生视频模型超高质量！

Aceryt • 1310浏览 • 0回复
如何获取高质量数据进行代码指令调优？

NLP工作站 • 899浏览 • 0回复
视频生成更高质量，更连贯！关键帧插值创新技术——Generative Inbetweening开源

angel • 1176浏览 • 0回复
中科大&科大讯飞重磅开源OpenMusic：音乐生成更高质量，更有乐感

angel • 1583浏览 • 0回复
大语言模型评估基准数据泄露问题分析报告

芝士AI吃鱼 • 1010浏览 • 0回复
3D生成基础模型来了！只需5秒，高质量3D资产规模化生成！南洋理工等重磅开源3DTopia-XL

angel • 813浏览 • 0回复
LLaMA-Omni：专为与大型语言模型（LLMs）进行低延迟、高质量的语音交互而设计

Halo咯咯 • 1449浏览 • 0回复
贾佳亚团队新作MagicMirror：生成身份一致且高质量个性化视频，效果惊艳！

angel • 380浏览 • 0回复
大模型训练之训练数据准备，即怎么准备高质量的训练数据集？

AI探索时代 • 255浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Runway全面开放新文生图模型Frames 2天前发布
开源版o1！中国大模型让国外陷入疯狂，成本猛降90% 3天前发布

热门推荐

寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案 2回复

人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望 0回复

谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型 0回复

大模型厂商视角的AI Agent综述，Anthropic图文并茂多个案例教你构建有效智能体 0回复

ChatGPT写作指南发布：12个案例助力高效学习 0回复

上一篇： Leonardo新增图片样式引导，能精准控制生成图片啦！

下一篇： ChatGPT能预测未来特定事件，准确率高达97%

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载