AI大牛karpathy点赞SEAL榜单,LLM评估的状况过去是非常糟糕的!

人工智能
即使LLM开发者尽了最大努力,防止测试集渗透到训练集中(以及答案被记住)也是困难的。当然,你可以尽力过滤掉完全匹配的项。你也可以过滤掉近似匹配的项,比如使用n-gram重叠等。但是你如何过滤掉合成数据重写,或者有关数据的相关在线讨论呢?

lmsys.org的一个严肃的竞争对手已经加入了对LLMs(大型语言模型)评估的讨论中:SEAL Leaderboards——对领先前沿模型进行的私密、专家评估。

SEAL Leaderboards的设计原则:

🔒私密 + 无法被利用。在评估上不会过度拟合! 

🎓领域专家评估 

🏆持续更新,包含新数据和模型

https://x.com/karpathy/status/179587366648140201https://x.com/karpathy/status/179587366648140201

Andrej Karpathy(原OpenAI的创始成员和研究科学家,也是特斯拉人工智能和自动驾驶部门(Autopilot)原负责人)的一些观点:

  • LLM评估正在改进,但不久前它们的状况非常糟糕,因为定性体验经常与定量排名不符。
  • 好的评估很难构建——在特斯拉,Karpathy可能花了1/3的时间在数据上,1/3在评估上,还有1/3在其他所有事情上。它们必须全面、代表性强、质量高,并测量梯度信号(即不要太容易,也不要太困难),在定性和定量评估一致之前,有很多细节需要考虑和正确处理。
  • 任何公开(非私有)的测试数据集不可避免地会渗透到训练集中。这是人们强烈直觉上怀疑的事情,也是为什么最近的GSM1k引起了轰动。https://arxiv.org/html/2405.00332。
  • 即使LLM开发者尽了最大努力,防止测试集渗透到训练集中(以及答案被记住)也是困难的。当然,你可以尽力过滤掉完全匹配的项。你也可以过滤掉近似匹配的项,比如使用n-gram重叠等。但是你如何过滤掉合成数据重写,或者有关数据的相关在线讨论呢?一旦我们开始常规地训练多模态模型,你如何过滤掉数据的图像/截图?你如何防止开发者,例如,向量嵌入测试集,并特别针对与测试集在嵌入空间中高度一致的数据进行训练?
  • 大家关心的并非所有LLM任务都可以自动评估(例如,想想摘要等),在这种情况下,你希望涉及人类。当你这样做时,你如何控制所有涉及的变量,比如人们有多关注实际答案,或者长度,或者风格,或者如何处理拒绝等。
  • 好的评估出人意料地困难,工作量巨大,但非常重要。

SEAL Leaderboards一些大模型评估结果,包括一些领先大模型:

- GPT-4o - GPT-4 Turbo - Claude 3 Opus - Gemini 1.5 Pro - Gemini 1.5 Flash - Llama3 - Mistral Large

图片图片

图片图片

图片图片

SEAL Leaderboards  https://scale.com/leaderboard


责任编辑:武晓燕 来源: PaperAgent
相关推荐

2024-08-07 10:05:00

LLM大模型技术

2020-01-10 15:15:53

Redis点赞数据库

2021-05-27 10:07:49

网络安全主管网络安全网络攻击

2009-05-07 09:02:15

思科钱伯斯营收

2023-02-02 13:22:40

AICIFAR数据集

2024-06-11 14:17:47

2020-12-03 11:00:29

Spring ClouRedis数据库

2024-02-19 00:12:50

AI代码

2010-05-31 10:43:52

李彦宏

2024-04-15 12:43:26

人工智能LLM

2018-08-09 20:41:29

人工智能AI神经网络

2024-06-04 14:08:00

2018-09-17 21:30:13

GDPR数据保护条例数据隐私

2023-07-05 15:18:42

AI自动驾驶

2024-08-09 12:46:04

2024-03-04 00:05:00

人工智能LLM 评估

2015-07-21 15:22:20

点赞仿知乎按钮动画

2024-06-24 10:53:23

2024-02-26 08:21:51

CPUkafka死循环

2024-08-09 14:13:51

点赞
收藏

51CTO技术栈公众号