专用于法律的两个开源大模型，最高1410亿参数

Aceryt

发布于 2024-9-11 10:38

浏览

0收藏

法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型——SaulLM。

SaulLM一共有540亿、1410亿两种参数，以及基础模型和指令微调两种版本。SaulLM的最大特色是使用了5400亿token的专业法律数据进行了预训练，包括美国、欧洲、澳大利亚等地的法律文本，输出内容的准确率高于很多同类模型。

开源地址：https://huggingface.co/Equall/SaulLM-54-Base

指令微调：https://huggingface.co/Equall/SaulLM-141B-Instruct

专用于法律的两个开源大模型，最高1410亿参数-AI.x社区

SaulLM-54B和SaulLM-141B是基于Mixtral系列模型开发而成，通过引入专家混合（MoE）机制，显著提升了模型处理大量数据的能力。

MoE架构的核心思想是将大型模型分解为多个小型专家网络，这些专家可以根据输入数据的不同特点被动态地激活。这种方法不仅提高了模型的计算效率，还增强了模型处理复杂法律文本的能力。

专用于法律的两个开源大模型，最高1410亿参数-AI.x社区

SaulLM-54B由32层组成，模型维度为4096，隐藏维度为14336；而SaulLM-141B则由56层构成，模型维度增至6144，隐藏维度达到16384。使得两个模型最多能支持长达32768和65536个token的上下文长度。

研究人员使用了分段策略来训练SaulLM模型，包括持续预训练、专业法律指令遵循协议的实施，以及模型输出与人类偏好的对齐。

第一步使用了超过5400亿token的专业法律语料库对模型进行预训练，盖了来自不同法律体系的广泛文本，包括美国、欧洲、澳大利亚等地的法律文献。

在预训练过程中，研究人员采用了AdamW优化器，并设置了特定的学习速率和梯度累积策略，以优化模型的学习效率和稳定性。此外，为了应对模型在训练过程中可能出现的灾难性遗忘等问题，研究团队还引入了重放策略，重新引入早期训练分布中的数据，以增强模型的记忆能力。

法律领域对大模型输出内容的准确性和专业性要求极高。为了提升模型在法律任务上的表现，研究人员使用了专业法律指令遵循协议，训练模型理解和执行法律场景中的指令。

在这一阶段，模型接受了包括法律分析、案件总结、法规解读等多种法律相关任务的训练。通过这种方式，模型学会了如何根据法律专家的需求，提供准确和相关的信息。

专用于法律的两个开源大模型，最高1410亿参数-AI.x社区

为了使模型的输出更加符合法律专业人士的期望和偏好，使用了模型输出与人类偏好的对齐方法。主要使用了合成数据和人类反馈来调整模型的输出。合成数据的生成是基于模型的自我对话，模拟法律专家在分析案件时可能提出的问题和答案。通过这种方式，模型能够学习到法律推理的深层逻辑和结构。

同时，研究人员还引入了人类反馈机制，通过评估模型输出的准确性、相关性和逻辑一致性，进一步优化模型的性能。

研究人员在专业法律基准测试平台LegalBench - Instruct 和多基准平台MMLU上对模型进行了综合评估。

专用于法律的两个开源大模型，最高1410亿参数-AI.x社区

实验结果显示， SaulLM – 54B优于 Mixtral - 54B，SaulLM -141B也优于Mixtral - 141B，比GPT-4、Llama-3也更加出色。此外，继续预训练显著增强了模型在法律领域的性能，在 IFT和 DPO阶段都有大约 7% 的显著提升。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/tgNnk_REDBjmRwagTF8Uog

标签

训练

模型

相关推荐

2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 3265浏览 • 0回复
首批开源 8B 和 70B两个版本，未来有望开源400B大模型！

AIGC最前线 • 1.1w浏览 • 0回复
杨立昆等语出惊人：这里有两个悖论

51CTO技术栈 • 2322浏览 • 0回复
单个4090可推理，2000亿稀疏大模型「天工MoE」开源

轻薄滴假象 • 2018浏览 • 0回复
谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

duhorse • 2590浏览 • 0回复
什么是超参数？大模型的超参数是做什么用的？超参数和大模型参数有什么关系？

AI探索时代 • 5170浏览 • 0回复
谷歌发布专用于个人健康的大语言模型PH-LLM

Aceryt • 2165浏览 • 0回复
专用于理解游戏场景的开源大模型-VideoGameBunny

Aceryt • 2407浏览 • 0回复
超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

Aceryt • 1821浏览 • 0回复
开源最大AI视频模型，130亿参数，性能媲美闭源，击败Runway Gen-3、Luma 1.6

51CTO技术栈 • 1978浏览 • 0回复
NVIDIA AI 推出 Fugatto：一个 25 亿参数的音频模型，可从文本和音频输入生成音乐、语音和声音

Halo咯咯 • 1890浏览 • 0回复
RAG技术落地的两个问题及应对策略

zhishan15 • 1669浏览 • 0回复
两个简单技巧把 RAG 检索正确率从 50% 提高到 95 %

玄姐聊AGI • 5068浏览 • 0回复
阿里开源QwQ-32B，性能与Deepseek R1持平。一个拥有320亿参数的全新推理模型

Halo咯咯 • 1877浏览 • 0回复
刚刚，OpenAI 开源了两个 Agent 项目，手搓 Manus 时代来袭

玄姐聊AGI • 1552浏览 • 0回复
神经网络的两个重难点之一，数据处理和模型设计

AI探索时代 • 1008浏览 • 0回复
【AI 界大地震】AMD 开源 30 亿参数大模型 Instella：性能碾压同类，训练成本暴跌 80%？

Halo咯咯 • 950浏览 • 0回复
AMD开源30亿小参数模型，媲美Qwen-2.5

Aceryt • 946浏览 • 0回复
LawLLM：面向美国法律体系的法律大语言模型

AIRoobt • 830浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

专用于法律的两个开源大模型，最高1410亿参数