3个月就能研发并上线大模型?这不是不可能,而且诞生于一只仅有10人的小项目团队。
这家公司是国内的一家创业公司——虎博科技,他们在短短3个月内,研发出首款自研大模型Tigerbot,并同步开源,同时发布了大模型应用开发所需的全套 API及多领域专业数据。
(开源地址:https://github.com/TigerResearch/TigerBot )
据了解,虎博科技成立于2017年,其专注于深度学习和NLP技术的研究和应用得到了广泛认可。此次发布并开源其自研大模型TigerBot,标志着这家专注于深度学习和自然语言处理技术的算法公司在大模型研发领域取得了重要突破。
虎博科技创始人兼CEO陈烨表示,在大模型研发方面,虎博团队借鉴了硅谷的经典"车库创业"模式,最初的团队规模只有5个人,而陈烨本人同时担任首席程序员和首席AI科学家的角色。终于,在历经3 个月的封闭式开发和超过 3000 次实验后,迭代出第一个 MVP (最小可行性模型),其表现效果堪比同规模大小的OpenAI的96%,且在推理式问答等个别领域表现尤其亮眼。
在陈烨眼中,顶尖团队不一定需要庞大的规模,但每个人技术都必须过硬,“我们的核心研发团队始终保持在4-5人,并保持着密切的合作状态。”直到大模型发布前夕,这个小团队也不过10人而已。
过去三个月中,虎博科技主要基于 GPT 和 BLOOM 两个开源模型基础上,在模型架构和算法上做了一系列优化,特别是原创了监督和微调方法,使大模型在事实性和创造性两方面有了显著突破,解决了大模型“胡说八道”的问题。“从整个技术角度来说,监督微调的方法是大模型这件事的核心,能够影响模型效果的七到八成",陈烨分享道。
为了使模型更懂中文指令,虎博科技还从分词器(Tokenizer)到训练算法等方面做了优化,直接赋予了问答结果更多中国文化属性。
在并行训练上,虎博的大模型团队也突破了 deep-speed 等主流框架中若干内存和通信问题,使得在千卡环境下,可实现训练数月而不间断,极大加速了模型迭代速度。
由于虎博科技这只创业团队秉持了科学创新无国界无阶层的理念,从研发之初,他们就选择了开源这条路,使得Tigerbot成为业内少有的开源大模型。
据悉,虎博大模型Tigerbot在模型、代码、数据三部分内容与广大开发者实现资源共享,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多个模型版本;基本训练且覆盖双卡推理 180B 模型的量化和推理代码;以及达 100G 的预训练数据、监督微调 1G/100 万条数据。值得一提的是,开源版本中,TigerBot-7B-base的综合表现优于同等可比的OpenAI和BLOOM,TigerBot-180B-research 的参数量达1800亿,或是目前业内最大的大规模语言模型,而高达100G的预训练数据,更被视为目前业内最大且质量最优的开源预训练数据之一。
虎博科技还将发布大模型应用开发所需的全套API,包括对话(Chat)、插件(Plug-ins)、微调(Fine-Tunes)等,同步共享专业领域数据,涵盖金融,法律,百科等,以期与大模型应用开发者,一起打造中国的世界级的应用。
目前,Tigerbo已经包含大部分生成和理解类的能力,如营销文案、评论、新闻稿等内容生产创作、文到图插图创作、数学题解题、写生成、做表格、文本理解等多项功能。未来,虎博科技还将持续投入大模型的研发和落地,或会推出研究助手 TigerDoc、文创和营销工具等大模型应用及面向个人用户的类助手产品。