公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

恋恋青鸟

LV.1

这个用户很懒，还没有个人简介

帖子 10

声望 86

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 10

回帖

可扩展性长文本评测集——Ada-LEval 详细解读

长文本评测随着大模型能够处理的上下文信息越来越多，达到百万级别的词汇量，人们对于模型长文本能力的研究兴趣也随之增长。司南OpenCompass数据集社区已经出现了诸如LEval、LongBench等长文本评测基准。这些工作基于一些开源自建的数据集构建样本，其构建评测集上的性能已可以一定程度上反映模型的能力。因此，在长文本评测这一工作里，我们认为一个好的长文本评测集应该具备以下性质：样本长度可控：测试样本的上下文长度最好...

2024-11-12 14:54:43 1173浏览 0点赞 0回复 0收藏

深度探索：LLaMa-3 网络安全能力全解析

随着人工智能技术的迅速发展，大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域，大模型的应用潜力巨大，它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而，新型大模型层出不穷，要有效利用这些模型，首先必须验证它们在理解和处理网络安全相关问题上的能力。4月19日凌晨，Meta开源了新一代LLaMa3模型。作为当前最受瞩目的大语言模型之一，LLaMa3在网络安全领域的表现到底怎样？如何将LL...

2024-08-01 14:12:48 1434浏览 0点赞 0回复 0收藏

NeedleBench 超长文本评测基准：大语言模型能否在 1000K 长度上检索推理？

司南团队构建了针对大语言模型超长文本能力的中英双语测试框架——NeedleBench，专门用来压力测试模型在处理长达百万级上下文窗口中的检索能力和推理能力。论文链接：http:arxiv.orgabs2407.11963Part1：为什么需要NeedleBench现在的大语言模型，如最近公开的GPT4o、GLM49B、InternLM2.5等，已经扩展了它们的上下文窗口，可以处理多达100万个token的文本。然而，简单地通过“NeedleInAHaystack”大海捞针要求LLMs提取关键信息，...

2024-07-30 00:27:22 1959浏览 0点赞 0回复 0收藏

T-Eval：大模型智能体能力评测基准解读 | ACL 2024

AIAgent（智能体）作为大模型的重要应用模式，能够通过使用外部工具来执行复杂任务，完成多步骤的工作流程。为了能全面评估模型的工具使用能力，司南及合作伙伴团队推出了TEval评测基准，相关成果论文已被ACL2024主会录用。查看原文：https:arxiv.orgabs2312.14033PART1为什么需要TEval？使用了工具的大语言模型有着惊艳的问题解决能力，但是如何评估模型的工具使用能力还有很大的探索空间。现有评估方法通常只关注模型处理单...

2024-07-16 09:21:09 2622浏览 0点赞 0回复 0收藏

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开

5月14日，OpenAI发布了GPT4o，支持文本、图像、语音、视频等多种形式的输入，大幅提升了推理响应的速度，在非英文任务上具有较大提升，并拥有比现有模型更强的视觉理解能力。我们第一时间对GPT4o模型的图像文本多模态能力进行了评测。OpenAI官方公布的视觉理解性能基于多模态大模型开源评测工具VLMEvalKit，我们在OpenVLMLeaderboard中的十二个图文多模态评测集上测试了GPT4o的视觉能力。GPT4o(20240513)与此前的GPT4v版本在各...

2024-07-10 09:30:57 6477浏览 0点赞 0回复 0收藏

可扩展性长文本评测集——Ada-LEval 详细解读

长文本评测随着大模型能够处理的上下文信息越来越多，达到百万级别的词汇量，人们对于模型长文本能力的研究兴趣也随之增长。这些工作基于一些开源自建的数据集构建样本，其构建评测集上的性能已可以一定程度上反映模型的能力。因此，在长文本评测这一工作里，我们认为一个好的长文本评测集应该具备以下性质：样本长度可控：测试样本的上下文长度最好是可控的，以便于测量和比较模型在各个上下文长度下的能力变化（若测试集由不...

2024-07-08 07:45:00 1885浏览 0点赞 0回复 0收藏

模型更新，评测集优化：多模态大模型评测升级！

先放结论如果你想为你的项目挑选合适的图文多模态模型，以下是一些可供参考的模型性能（括号内为评测分数）：已测性能最强的闭源模型：GPT4o（海外API模型，69.9）GLM4v（国内API模型，60.8）已测位于"参数量性能"前沿上的开源模型：InternVLv1.5(26B,61.7)MiniCPMLlama3V2.5(8B,58.8)InternLMXComposer27B4KHD(7B,58.8)MiniInternVL(4B,56.2;2B,49.8)本期的多模态模型性能榜单1.多模态大模型评测榜单构成更新在4月底，司南多...

2024-07-01 11:12:48 4041浏览 0点赞 0回复 0收藏

Flames 安全评测基准：大语言模型的对齐效果如何？

Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准，包含一个综合性评测框架、高对抗性中文数据集和自动评分模型，囊括Fairness（公平）,Safety(安全)，Morality(道德)，DataProtection（数据保护），以及Legality（合法）五个大维度，Flames名字也来源于此。一、为什么需要Flames？当前大语言模型在深层次的价值对齐和无害性方面存在诸多挑战，高质量的评测集可以有效评估模型的价值对齐情况。然而...

2024-05-30 11:07:43 2746浏览 0点赞 0回复 0收藏

ChemBench：大语言模型化学能力评测数据集

ChemBench是上海人工智能实验室AIforScience团队自建的化学语言模型评测数据集，实现了大模型能力在化学领域的全面评估。研究团队从互联网公开资源中采集并设计构建了4100多道多项选择题，每个选择题只有一个正确答案。覆盖了基于文本的分子生成、名称转换、性质预测、温度预测、分子描述、产率预测、溶剂预测、逆合成分析、产物预测九大化学任务。ChemBench评测任务介绍随着大语言模型的飞速发展，一系列特定领域的垂类模型也...

2024-05-28 10:25:26 3193浏览 0点赞 0回复 0收藏

GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

随着现代大语言模型（LLMs）如OpenAI的ChatGPT和GPT4的出现，LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。从Meta在4月18日发布Llama38B&70B开始，Qwen开源的首个百B大模型Qwen1.5110B，到深度求索的MoE模型DeepSeekV2，还有近几日OpenAI放出的大招GPT4o，号称更低的价格，更强的性能，大家都号称自己的新模型数学能力顶呱呱，但事实真是这样吗？如何透明化评测大模型的各项数学能力如今成了大家的难题，因为开源数据...

2024-05-23 15:02:08 2423浏览 0点赞 0回复 0收藏

获得成就

已积累 6169 人气

获得 0 个点赞

获得 0 次收藏