ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型 原创

发布于 2024-10-14 19:12
浏览
0收藏

摘要:我们介绍了ChatGLM,这是我们持续开发的大规模语言模型家族。本报告主要聚焦于GLM-4系列语言模型,包括GLM-4、GLM-4-Air 和 GLM-4-9B。它们是我们最强大的模型,集成了前三代ChatGLM的所有经验和教训。迄今为止,GLM-4模型在中文和英文的十万亿个标注符号上进行了预训练,并辅以来自24种语言的小型语料库,主要为中英文使用进行了对齐。高质量的对齐通过多阶段后训练过程实现,包括监督微调和从人类反馈中学习。评估表明,GLM-4在通用指标上与GPT-4相媲美甚至超越,如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval;在指令跟随方面接近GPT-4-Turbo;在长上下文任务上匹敌GPT-4 Turbo (128K)和Claude 3;在中文对齐上优于GPT-4,并在AlignBench中表现优异。GLM-4 All Tools模型进一步对齐了用户意图,能够自主决定何时使用及选择何种工具(包括网页浏览器、Python解释器、文本到图像模型和用户定义的函数)来完成复杂任务。在实际应用中,它在访问在线信息和使用Python解释器解决数学问题等任务上表现优异,甚至超过GPT-4 All Tools。我们还开源了一系列模型,包括ChatGLM-6B、GLM-4-9B、WebGLM和CodeGeeX,2023年在Huggingface上累计下载量超过1000万次。

1 引言

ChatGPT的表现引人注目,其功能最初由GPT-3.5模型在2022年11月驱动,随后在2023年3月升级为GPT-4。根据OpenAI的说法,GPT-3.5系列通过引入指令微调、监督微调(SFT)和/或从人类反馈中进行的强化学习(RLHF)在GPT-3的基础上有所改进。最初的GPT-3于2020年发布,标志着从GPT-1的1.17亿参数和GPT-2的15亿参数跃升至1750亿参数的重大进展。这种规模的扩展使得GPT-3具备了上下文学习和广泛的能力,促成了大型语言模型(LLMs)的出现。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

图 1 标题:GLM 家族的语言、代码、视觉和智能体模型的时间线。本报告主要关注语言模型,即 ChatGLM。API 可通过 ​​https://bigmodel.cn​​​ 获取,开源模型可通过 ​​​https://github.com/THUDM​​​ 访问。

受GPT-3的启发,我们提出了通用语言模型(GLM)架构,该架构以自回归填空任务为特点,并在2021年开源了GLM-10B模型(参见图1中的GLM时间线)。自2021年底起,我们开始预训练GLM-130B。我们的目标是训练一个百亿级模型,以匹敌或超越GPT-3(davinci),并验证在这种规模下成功训练模型的技术,与其他工作如OPT-175B和BLOOM-176B类似。我们于7月完成了GLM-130B的4000亿标记的训练和评估,并于2022年8月发布了模型和预训练细节。根据HELM 2022年11月的数据,GLM-130B在各个维度上与GPT-3(davinci)相匹敌。

此后,我们开始对GLM-130B进行指令微调。ChatGPT的出现进一步促使我们通过SFT和RLHF使基础模型对齐。我们从头开始创建并构建了提示-响应对,并执行了SFT,同时还开始研究如何有效应用RLHF。在2023年3月14日,经过对齐的模型ChatGLM-130B上线,此外,较小版本的ChatGLM-6B也在同一天开源,获得了远超预期的关注。ChatGLM-6B设计为拥有62亿参数,旨在1)促进训练前后技术和数据选择的快速迭代,2)通过INT4量化支持在消费级显卡上进行本地部署。自此,我们迅速探索并改进了预训练和对齐技术,导致了每三个月推出的第二代和第三代ChatGLM系列,这些系列完全从头开始预训练。

ChatGLM-6B是在大约一万亿中文和英文语料库上预训练的,具有2048个上下文长度(2K),并主要通过SFT进行增强。2023年6月发布的ChatGLM2-6B通过更多更好的数据进行预训练和对齐,带来了比前代显著的改进,包括在MMLU上提高了23%,在GSM8K上提高了571%,在BBH上提高了60%。通过采用FlashAttention技术,其上下文长度扩展到了32K。此外,多查询注意力机制的集成提高了推理速度42%。更进一步,我们的第二代代码模型CodeGeeX2-6B通过在额外的6000亿代码标记上进行预训练,展示了相较于初代CodeGeeX-13B显著的Pass@1提升:Python提高了57%,C++提高了71%,Java提高了54%,JavaScript提高了83%,Go提高了56%,这些成绩是通过HumanEval-X评估的。通过进一步实现更多样化的训练数据集、更充分的训练步骤和更优化的训练策略,ChatGLM3-6B在语义、数学、推理、代码和知识等42项基准测试中拔得头筹。从这一代开始,ChatGLM还支持函数调用和代码解释器,以及复杂的智能体任务。在这些发展的过程中,我们还开发了1.5B、3B、12B、32B、66B和130B参数的模型,使我们能够验证观察结果并建立我们自己的缩放规律。

总结所学经验和积累的知识后,我们启动了GLM-4的训练。第一个阶段的检查点经过了多阶段的后期训练过程(如SFT、RLHF、安全性对齐),目前主要集中在中英文的语言使用。随后,它发展为两个不同的版本:GLM-4和GLM-4 All Tools,两者均支持128K的上下文长度。自2024年1月16日起,GLM-4(0116)通过GLM-4 API上线,GLM-4 All Tools则可通过​​​https://chatglm.cn​​以及支持自定义GLM智能体创建的移动应用程序访问。最新的模型包括在预训练和对齐方面进行升级的GLM-4(0520)和GLM-4-Air。GLM-4-Air在更低延迟和推理成本的情况下实现了与GLM-4(0116)相当的性能。GLM-4的评估在各种语言基准上进行,评估了GLM-4在英文中的通用能力、在中英文中的指令跟随能力,以及在中文中的对齐、长上下文和智能体能力。

首先,在最常用的英文学术基准上——MMLU、GSM8K、MATH、BBH、GPQA和HumanEval,GLM-4(0520)的表现与GPT-4(0613)相当。例如,它在MMLU上的得分为83.3,而GPT-4为86.4,Gemini 1.5 Pro为83.7。其次,根据IFEval的评估,GLM-4的指令跟随能力在提示和指令层面都接近GPT-4-Turbo,无论是在英文还是中文。第三,在中文语言对齐方面,GLM-4在AlignBench的八个维度上表现优于GPT-4,并与GPT-4-Turbo持平。最后,针对长上下文任务,GLM-4(128K)在LongBench-Chat上的表现与GPT-4 Turbo和Claude 3 Opus相当,得分为87.3,而GPT-4 Turbo得分为87.2,Claude 3 Opus得分为87.7。

GLM-4 All Tools模型特别对齐以更好地理解用户意图,并自主选择最适合完成任务的工具。例如,它可以通过网页浏览器进行多轮次信息检索,使用Python解释器解决数学问题,利用文本到图像模型生成图像,并调用用户定义的函数。图2展示了GLM-4 All Tools使用网页浏览器和Python解释器解决“查询2000年至2023年全球人口增长,并计算平均年增长率”的示例。我们的实际测试显示,它不仅匹敌,而且在访问在线信息和解决数学问题等常见任务中超过了GPT-4 All Tools的能力。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

图 2:GLM-4 All Tools 的一个示例。

继三代开放的ChatGLM-6B模型之后,我们还开放了GLM-4-9B(128K和1M上下文长度)模型。GLM-4-9B基于大约10万亿多语言语料库进行预训练,具有8192(8K)的上下文长度,并使用与GLM-4(0520)相同的流水线和数据进行后训练。尽管使用的训练计算量较少,它的表现超越了Llama-3-8B,并支持GLM-4中所有的All Tools功能。我们还提供了一个实验模型GLM-4-9B-Chat-1M,支持1百万(1M)上下文长度(相当于大约200万个中文字符)。表1展示了三代ChatGLM-6B模型和GLM-4-9B的表现,展示了ChatGLM随着时间的推移逐步改进的过程。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

图3总结了从GLM-130B到ChatGLM、ChatGLM2/3再到GLM-4 All Tools的主要改进和特点。在这一过程中,我们还为代码LLM(CodeGeeX)以及图像理解的视觉语言模型(CogVLM)和文本到图像生成模型(CogView)的开放开发做出了贡献。这些开源的模型和数据可以通过​​​https://github.com/THUDM​​​和​​​https://huggingface.co/THUDM​​​进行访问。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

2 ChatGLM 技术

在本节中,我们介绍了ChatGLM中采用和开发的预训练和后训练技术,包括模型架构、预训练数据、对齐过程和All Tools功能。对于我们使用的每一个主要技术,我们都提供了详细的技术报告,以展示我们如何达到GLM-4的水平。

预训练数据

我们的预训练语料库由多语言文档组成(主要是中文和英文),这些文档来自多种来源,包括网页、维基百科、书籍、代码和论文。数据处理流程主要包括三个阶段:去重、过滤和分词。去重阶段通过移除重复或相似的文档来提高数据多样性,包括精确去重和模糊去重。过滤阶段通过移除包含冒犯性语言、占位符文本、源代码等噪声文档来提高数据质量。分词阶段将文本转换为一系列标记以供进一步处理。预训练数据中的标记数量直接影响模型的训练速度。为了优化这一点,我们采用了字节级字节对编码(BPE)算法来分别学习中文和多语言的标记,并将其与tiktoken中的cl100k_base分词器的标记合并,生成一个大小为150,000的统一词汇表。在最终的训练集里,我们重新加权不同来源的数据,增加像书籍和维基百科等高质量和教育资源的比例。最终,预训练语料库大约包含10万亿个标记。

在ChatGLM发展的四代过程中,我们的发现与现有研究一致:数据的质量和多样性对于构建有效的大型语言模型至关重要。尽管我们获得了许多经验教训,但至今我们仍未找到指导数据收集、清理和选择过程的基本原则。

架构

GLM家族的语言模型基于Transformer架构。在GLM-130B中,我们探索了各种选项来稳定其预训练,考虑到当时的硬件限制。具体来说,GLM-130B采用了DeepNorm作为层归一化策略,并使用了旋转位置编码(RoPE)以及带有GeLU激活函数的门控线性单元(GLU)。在我们的探索过程中,我们研究了各种提高模型性能和推理效率的策略。最近的GLM-4模型采用了以下架构设计选择:

- 除QKV外没有偏差:为了提高训练速度,我们移除了除注意力层中的查询、键和值(QKV)之外的所有偏差项。在这样做时,我们观察到在长度外推方面有轻微的改进。

- RMSNorm和SwiGLU:我们采用了RMSNorm替代LayerNorm,并用SwiGLU替代ReLU。这两种策略均被观察到能提高模型性能。

- 旋转位置嵌入(RoPE):我们将RoPE扩展为二维形式,以适应GLM中的二维位置编码。

- 组查询注意力(GQA):我们用组查询注意力(GQA)替代多头注意力(MHA),以减少推理期间KV缓存的大小。由于GQA使用的参数比MHA少,因此我们增加了前馈网络(FFN)的参数数量,以保持相同的模型规模,即将FFN的维度设置为隐藏层维度的10/3。

我们的模型上下文长度从ChatGLM的2K扩展到ChatGLM2和ChatGLM3的32K,再到GLM-4的128K和1M。这个扩展不仅通过上下文扩展(位置编码扩展和长文本的连续训练)来实现,还通过长上下文对齐,使GLM-4能够有效处理长上下文。

对齐

预训练为大型语言模型奠定了基础,而后训练则进一步优化这些模型,使它们更符合人类偏好,例如理解人类意图、遵循指令和进行多轮对话。对于GLM-4,对齐主要通过监督微调(SFT)和从人类反馈中进行的强化学习(RLHF)来实现。在SFT中,我们发现真实的人类提示和交互(而非基于模板或模型生成的响应)对于对齐质量至关重要。尽管SFT在很大程度上使基础模型符合人类偏好,RLHF则有助于进一步缓解诸如响应拒绝、安全性问题、生成的双语标记混合以及多轮连贯性等问题。

对于第一代模型(ChatGLM-6B和ChatGLM-130B),提示-响应对主要由模型开发人员进行标注。对于后续的模型,对齐数据是由内部标注数据和从第三方获取的专有数据组合而成,并接受了相对严格的质量控制措施。与现有的做法类似,标注员被指示从多个维度对模型的响应进行评分,包括安全性、真实性、相关性、帮助性和人类偏好。

ChatGLM技术

在ChatGLM的发展过程中,我们引入并将发布一些用于提高其性能的技术。

- 大型语言模型的涌现能力:我们研究了预训练损失与下游任务性能之间的关系,发现即使在相同的预训练损失下,不同规模的语言模型和训练标记在下游任务上表现相同。我们还发现,在某些任务上(如MMLU和GSM8K),只有当预训练损失低于某个阈值时,模型的表现才会超越随机水平。因此,我们重新定义了涌现能力,即那些在预训练损失较低的模型中展现出来的能力。

- 长对齐(LongAlign):为了扩展语言模型的上下文窗口大小,我们提出了长对齐(LongAlign)——一个全面的长上下文对齐方案。它使得GLM-4能够处理长达128K标记的长上下文文本,其性能与Claude 2和GPT-4 Turbo相当。

- ChatGLM-Math:为了提高语言模型在解决数学问题上的能力,我们引入了ChatGLM-Math,它通过自我批评而非外部模型或手动标注进行数据选择。

- ChatGLM-RLHF:为了将语言模型与人类反馈对齐,我们引入了ChatGLM-RLHF,这是我们在LLM中应用PPO和DPO的实践。

- 自对比(Self-Contrast):为了避免昂贵的人类偏好反馈数据,我们开发了一种无反馈对齐策略——自对比(Self-Contrast)。它利用目标语言模型自身生成大量负样本,以进行RLHF对齐。

- AgentTuning:为了提高语言模型的智能体能力,我们开发了AgentTuning框架,并引入了AgentInstruct指令微调数据集,该数据集包含高质量的智能体与环境的交互轨迹。

- APAR:为了提高语言模型在具有层次结构的响应中的推理速度,我们提出了一种自动并行自回归(APAR)生成方法。它通过指令微调训练语言模型来规划其(并行)生成过程,并执行APAR生成。

- 基准测试:我们还开发了多个开放的语言模型基准,包括用于评估语言模型作为智能体能力的AgentBench,用于评估语言模型长上下文处理能力的LongBench,用于衡量ChatGLM中文对齐质量的AlignBench,HumanEval-X用于评估Python以外编程语言中的HumanEval问题,以及用于评估模型解决实际编程任务能力的NaturalCodeBench (NCB)。

GLM-4 All Tools

最新的ChatGLM模型是GLM-4和GLM-4 All Tools,二者均通过上述技术进行训练和对齐。GLM-4 All Tools是进一步对齐以支持智能代理和相关任务的模型版本。它能够自主理解用户意图,规划复杂指令,并调用一种或多种工具(如网页浏览器、Python解释器和文本到图像模型)来完成复杂任务。图4展示了GLM-4 All Tools系统的整体流程。当用户发出复杂请求时,模型会逐步分析任务并规划解决步骤。如果它判断无法独立完成任务,它将依次调用一个或多个外部工具,利用这些工具的中间反馈和结果来帮助解决任务。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

基于GLM-4的所有工具功能,我们还开发了GLM应用平台,允许用户为特定任务创建和定制自己的智能体。GLM不仅支持嵌入式Python解释器、网页浏览器、文本到图像模型,还支持用户定义的函数、API和外部知识库,以更有效地满足用户需求。

3 GLM-4 的能力

我们从多个角度评估了GLM-4模型的能力,包括其在学术基准测试中的基本能力、代码问题解决能力、智能体在英语环境中的能力、指令跟随、中文和英文中的长上下文处理能力以及中文对齐能力。如前所述,GLM-4主要在中文和英文上进行预训练,并且对中文进行了重点对齐。在本节中,我们主要报告最新版本GLM-4,即GLM-4 (0520) 和 GLM-4-Air (0605) 的结果,因为GLM-4 (0520) 在评估的基准测试中表现略优于最初的0116版本。评估期间,GLM-4 和 GLM-4-Air 均以BFloat16精度进行部署。

作为基准,我们呈现了GPT-4(0603)、GPT-4 Turbo(1106,2024-04-09)、Claude 2、Claude 3 Opus和Gemini 1.5 Pro的结果,这些结果均来自相应的技术报告或通过其公开API测试得出。

总体而言,GLM-4 在标准基准测试、指令跟随、长上下文、代码问题解决及智能体能力方面与当前最先进的模型(GPT-4 Turbo、Gemini 1.5 Pro 和 Claude 3 Opus)接近。在中文对齐方面,它在多个领域表现强劲,如基础语言能力、中文高级理解、专业知识和开放性问题。总之,GLM-4 是中文语言任务中的佼佼者。它在中文数学和逻辑推理能力上与GPT-4和Claude 3 Opus相当,尽管在这方面稍稍落后于GPT-4 Turbo。

3.1 学术基准测试评估

为了评估基本模型的总体性能,我们选择了六个常用的基准,涵盖了知识、数学、推理、常识和代码:

- MMLU:多项选择题集,收集自各种考试,包括数学、历史、计算机科学等。我们向模型提供所有答案并要求其选择正确答案的字母。

- GSM8K:包含8,500道小学数学文字题(测试集中有1,000道),需要模型使用数学概念解决实际情境问题。我们使用链式思维(chain-of-thought)提示进行测试。

- MATH:包含12,500道具有挑战性的竞赛级数学问题(测试集中有5,000道)。我们使用链式思维提示进行测试。

- BBH:23项具有挑战性的BIG-Bench任务。我们使用链式思维提示进行测试。

- GPQA:一项涵盖生物、化学和物理学的研究生级别多项选择题基准测试。

- HumanEval:一个代码生成基准,评估生成的合成函数的正确性,使用自动测试用例检查。

我们将GLM-4的表现与原始GPT-4进行比较,结果如表2所示。可以看到,GLM-4在MMLU上达到了GPT-4准确率的96.3%,并且在其他基准测试中表现优于GPT-4。总体而言,GLM-4的基本能力接近GPT-4 Turbo和Claude 3 Opus。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.2 指令跟随能力评估

我们使用最近引入的IFEval数据集评估了GLM-4在跟随指令方面的能力。该数据集包含从25个不同指令中提取的541个提示,通过明确的标准进行验证(例如,“请在邮件末尾写上:P.S. 我确实喜欢这个蛋糕”可以通过字符串匹配来验证)。我们遵循[61]中的方法,计算提示级别和指令级别的准确率,分别在严格模式和宽松模式下进行评估。为了进一步评估模型在跟随中文指令上的表现,我们将原始提示翻译成中文,删除不适用于中文的指令(例如大写规则),并调整评分脚本以适应中文数据。

表3展示了GLM-4在IFEval上的表现。在宽松模式下,GLM-4的指令级别准确率与GPT-4 Turbo在英文和中文中的表现相当。在严格模式下,GLM-4在英文和中文中的指令级别准确率分别达到了GPT-4 Turbo(2024-04-09)的99.0%和98.6%。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.3 对齐能力评估

AlignBench通过一种自动的“语言模型即裁判”方法来评估大型语言模型在中文背景下的对齐能力。该基准包含683个问题,涵盖8个不同类别,并通过基于GPT-4的多维规则校准的逐点参考打分方法对模型的响应进行评判。我们在AlignBench-v1.1版本上进行评估,该版本更加细致地改进了参考生成的质量,特别是在需要知识的问题上补充了从网页中收集到的带有URL的人类证据,这类问题占总查询的66.5%。在这个版本上,几乎所有的语言模型得分都比之前的AlignBench有所下降。

表4展示了GLM-4在AlignBench上的表现。GLM-4在整体得分上超过了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro,尤其在中文逻辑推理和语言理解方面表现优异,显著优于其他强大的模型。这些结果表明其对中文语言和知识的掌握能力很强。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

目前,GLM-4与GPT-4 Turbo(2024-04-09)之间的性能差距主要体现在数学维度上。我们已经引入了ChatGLM-Math中的技术(如自我批评)来持续增强GLM模型的推理能力。

3.4 长上下文处理能力评估

为了评估GLM-4在长文本任务上的表现,我们在LongBench-Chat上进行了评估。LongBench-Chat的上下文长度范围从10K到100K,涵盖了用户常用的多种长文本场景,如文档问答、摘要生成和代码生成。为了更详细地比较GLM-4在不同语言中的表现,我们将LongBench-Chat按语言划分为中文和英文两部分。表5分别展示了两种语言的结果,从中可以清楚地看到,GLM-4在英文提示上的表现与GPT-4 Turbo和Claude 3 Opus一致,而在中文提示上的表现甚至超过了最好的模型。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.5 实际用户提示下的代码生成能力评估

虽然HumanEval已被广泛用于评估代码生成,但其中大部分问题都属于入门级算法问题。然而,在实际中,真实用户提出的问题往往更为复杂,超出了HumanEval的范畴。此外,之前的研究报告指出在训练数据中存在HumanEval污染的问题,使得HumanEval的评估结果相对不再可信。因此,除了HumanEval,我们还在NaturalCodeBench(NCB)上对GLM-4进行了评估,NCB是一个源于实际用户提示的双语代码基准,反映了真实世界中的复杂代码任务。表6展示了结果,GLM-4在实际场景中的代码生成能力与Claude 3 Opus接近。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.6 函数调用能力评估

为了评估GLM模型在函数调用方面的能力,我们在Berkeley函数调用排行榜上进行了评估。该基准包含2,000个问题-函数-答案对,评估模型在三个类别上的函数调用能力:通过抽象语法树(AST)评估、通过API执行评估和相关性检测。结果如表7所示。GLM-4 (0520) 在函数调用能力上与GPT-4 Turbo (2024-04-09) 表现一致。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.7 智能体能力评估

大型语言模型(LLMs)作为智能体在多种环境和情境中表现出色,称为“LLMs-as-Agents”。因此,我们在AgentBench上评估了GLM-4及其他对比模型在不同的实际环境中的表现,包括代码、游戏和网页相关的任务。结果如表8所示,GLM-4系列模型在智能体任务上的表现令人印象深刻。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

3.8 全工具能力评估

GLM-4进一步对齐以支持智能代理和用户自定义GLMs功能,生成的模型版本为GLM-4 All Tools。表9显示了GLM-4 All Tools在使用Python解释器解决数学问题和网页浏览器获取信息方面的表现,与GPT-4 All Tools表现相当。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

4 安全性与风险

我们致力于确保GLM-4能够作为一个安全、负责任且无偏见的模型运行。除了应对常见的伦理和公平问题,我们还仔细评估并减轻模型在现实世界场景中可能对用户造成的潜在伤害。

风险缓解

在预训练阶段,我们通过移除包含敏感关键词和预定义黑名单网页的文本,严格清理数据。在对齐阶段,我们对每一个训练样本进行安全性评估,并移除任何可能带来潜在风险的样本。无害性也是在比较多个模型输出时进行偏好对齐的重要标准之一。

我们有一个“红队”,其任务是不断挑战模型,提出一些棘手的问题,这些问题往往会引发不安全的回答。我们收集所有来自GLM-4的有害问题-回答对,并通过人工标注进行改进,以便进一步对模型进行对齐。

安全性评估

我们使用SafetyBench数据集对GLM-4模型进行了评估,该数据集从7个维度评估了每个模型的能力:伦理与道德(不道德行为)、非法活动(基本法律知识)、心理健康(对心理健康的负面影响)、冒犯性(冒犯行为)、身体健康(可能导致身体伤害的危险行为)、隐私与财产(隐私泄露或财产损失)、不公平与偏见。我们在SafetyBench的中文子集中对不同模型进行评估,该子集通过删除高度敏感的问题(这些问题容易被阻断)来缓解不同API安全策略的干扰。

表10展示了GLM-4与现有最先进模型的安全性表现。在大多数维度上,GLM-4 (0520) 表现出有竞争力的安全性,并且整体上达到了与Claude 3 Opus相当的表现。GLM-4略微落后于GPT-4家族的模型,特别是在“身体健康”维度上,该维度要求模型具备关于物理世界的常识,以避免潜在风险。我们已在这一方向上投入了更多的精力,以开发更强大且更安全的GLM模型。

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型-AI.x社区

5 结论

在本报告中,我们介绍了从GLM-130B到GLM-4(全工具版)的ChatGLM系列大型语言模型。在过去一年半的时间里,我们在理解大型语言模型的各个方面取得了巨大进展,并获得了宝贵的第一手经验。随着每一代模型的开发,团队在模型预训练和对齐方面学习并应用了更加有效和高效的策略。最近的ChatGLM模型——GLM-4 (0116, 0520)、GLM-4-Air (0605) 和 GLM-4 全工具版——展示了在执行复杂任务时显著的进步,它们能够自主调用外部工具和功能。这些GLM-4模型在性能上达到了甚至在某些情况下超越了最先进的模型,如GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro,尤其是在处理与中文相关的任务时表现突出。

此外,我们致力于通过开源发布模型权重和在此过程中开发的技术,推动大型语言模型的可访问性和安全性。在2023年,我们开源的语言、代码和视觉模型在Hugging Face上的下载量已超过1000万次。目前,我们正在基于现有的经验教训开发更强大的模型。未来,我们将继续通过开源推动最前沿的大型语言模型技术的发展,并致力于实现让机器像人类一样思考的目标。

本文转载自公众号AIRoobt ,作者:AIRoobt

原文链接:​https://mp.weixin.qq.com/s/p-IDsEWdBPfW99w_4S4b8Q​​​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐