长文本评测随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。司南OpenCompass数据集社区已经出现了诸如LEval、LongBench等长文本评测基准。这些工作基于一些开源自建的数据集构建样本,其构建评测集上的性能已可以一定程度上反映模型的能力。因此,在长文本评测这一工作里,我们认为一个好的长文本评测集应该具备以下性质:样本长度可控:测试样本的上下文长度最好...
随着人工智能技术的迅速发展,大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域,大模型的应用潜力巨大,它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而,新型大模型层出不穷,要有效利用这些模型,首先必须验证它们在理解和处理网络安全相关问题上的能力。4月19日凌晨,Meta开源了新一代LLaMa3模型。作为当前最受瞩目的大语言模型之一,LLaMa3在网络安全领域的表现到底怎样?如何将LL...
2024-08-01 14:12:48 517浏览 0点赞 0回复 0收藏
司南团队构建了针对大语言模型超长文本能力的中英双语测试框架——NeedleBench,专门用来压力测试模型在处理长达百万级上下文窗口中的检索能力和推理能力。论文链接:http:arxiv.orgabs2407.11963Part1:为什么需要NeedleBench现在的大语言模型,如最近公开的GPT4o、GLM49B、InternLM2.5等,已经扩展了它们的上下文窗口,可以处理多达100万个token的文本。然而,简单地通过“NeedleInAHaystack”大海捞针要求LLMs提取关键信息,...
2024-07-30 00:27:22 642浏览 0点赞 0回复 0收藏
AIAgent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了能全面评估模型的工具使用能力,司南及合作伙伴团队推出了TEval评测基准,相关成果论文已被ACL2024主会录用。查看原文:https:arxiv.orgabs2312.14033PART1为什么需要TEval?使用了工具的大语言模型有着惊艳的问题解决能力,但是如何评估模型的工具使用能力还有很大的探索空间。现有评估方法通常只关注模型处理单...
2024-07-16 09:21:09 1049浏览 0点赞 0回复 0收藏
5月14日,OpenAI发布了GPT4o,支持文本、图像、语音、视频等多种形式的输入,大幅提升了推理响应的速度,在非英文任务上具有较大提升,并拥有比现有模型更强的视觉理解能力。我们第一时间对GPT4o模型的图像文本多模态能力进行了评测。OpenAI官方公布的视觉理解性能基于多模态大模型开源评测工具VLMEvalKit,我们在OpenVLMLeaderboard中的十二个图文多模态评测集上测试了GPT4o的视觉能力。GPT4o(20240513)与此前的GPT4v版本在各...
2024-07-10 09:30:57 2703浏览 0点赞 0回复 0收藏
长文本评测随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。这些工作基于一些开源自建的数据集构建样本,其构建评测集上的性能已可以一定程度上反映模型的能力。因此,在长文本评测这一工作里,我们认为一个好的长文本评测集应该具备以下性质:样本长度可控:测试样本的上下文长度最好是可控的,以便于测量和比较模型在各个上下文长度下的能力变化(若测试集由不...
2024-07-08 07:45:00 765浏览 0点赞 0回复 0收藏
先放结论如果你想为你的项目挑选合适的图文多模态模型,以下是一些可供参考的模型性能(括号内为评测分数):已测性能最强的闭源模型:GPT4o(海外API模型,69.9)GLM4v(国内API模型,60.8)已测位于"参数量性能"前沿上的开源模型:InternVLv1.5(26B,61.7)MiniCPMLlama3V2.5(8B,58.8)InternLMXComposer27B4KHD(7B,58.8)MiniInternVL(4B,56.2;2B,49.8)本期的多模态模型性能榜单1.多模态大模型评测榜单构成更新在4月底,司南多...
2024-07-01 11:12:48 1916浏览 0点赞 0回复 0收藏
Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平),Safety(安全),Morality(道德),DataProtection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。一、为什么需要Flames?当前大语言模型在深层次的价值对齐和无害性方面存在诸多挑战,高质量的评测集可以有效评估模型的价值对齐情况。然而...
2024-05-30 11:07:43 1228浏览 0点赞 0回复 0收藏
ChemBench是上海人工智能实验室AIforScience团队自建的化学语言模型评测数据集,实现了大模型能力在化学领域的全面评估。研究团队从互联网公开资源中采集并设计构建了4100多道多项选择题,每个选择题只有一个正确答案。覆盖了基于文本的分子生成、名称转换、性质预测、温度预测、分子描述、产率预测、溶剂预测、逆合成分析、产物预测九大化学任务。ChemBench评测任务介绍随着大语言模型的飞速发展,一系列特定领域的垂类模型也...
2024-05-28 10:25:26 1532浏览 0点赞 0回复 0收藏
随着现代大语言模型(LLMs)如OpenAI的ChatGPT和GPT4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。从Meta在4月18日发布Llama38B&70B开始,Qwen开源的首个百B大模型Qwen1.5110B,到深度求索的MoE模型DeepSeekV2,还有近几日OpenAI放出的大招GPT4o,号称更低的价格,更强的性能,大家都号称自己的新模型数学能力顶呱呱,但事实真是这样吗?如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据...
2024-05-23 15:02:08 1234浏览 0点赞 0回复 0收藏