Stability AI开源一系列人工智能应用-51CTO.COM

作者：王瑞平

51CTO读者成长计划社群招募，咨询小助手（微信号：CTOjishuzhan）

Stability AI在AIGC领域颇有名气，目前，最受欢迎的产品是其AI图像生成工具Stable Diffusion，它可以通过用户输入的文本提示生成非常复杂的图像。

针对将软件开源的问题，Stability AI的首席执行官Emad Mostaque一再公开强调：“Stability AI的愿景是利用其开源模型作为起点，帮助企业利用其私有的、受监管的数据使用生成式AI。”

1、开源Stable Studio

5月17日，Stability AI在其网站上开源了一款名为Stable Studio的应用。据悉，这是公司首个由文本生成图像的应用程序Dream Studio的开源版本，是面向消费者的。

此举为公司在AI生成图像领域开启了新篇章，并展现出Stability AI致力于在AI生态系统中推进开源的决心。

首席执行官Emad Mostaque也在推特上发布了关于开源的消息：“这是Stability AI在过去几个月里为引领开源人工智能热潮所进行的最新举措。我们将开展尖端的UI/UX研究，这样就能共同努力，释放出开源模型的创造力。”

据了解，Dream Studio一直是Stability AI新模型和功能的主要界面。而该应用程序最初被设定成将生成式人工智能功能带给大众的平台。从那时起，它的用户已经在社区里创建了数百万张图片。

由于一直以来Dream Studio具有良好的用户反馈，公司认为需要进行开放的、社区驱动式的开发，而不是靠封闭源代码产品进行私人迭代。

Stability AI也在官网上表示：“我们的目标是参与更广泛的社区合作，并为生成式人工智能创建出世界级的用户界面。我们的目标是培育可以超越任何公司的项目。”

2、塑造Stable Studio的未来

Dream Studio最初被设想打造成为Disco Diffusion的动画工作室。

随着稳定扩散技术在2022年夏天的到来，焦点被转移至图像生成层面，目标是为生成式AI创造伟大的多模式体验。为此，公司将在接下来的Stable Studio项目中公布聊天界面。

从启用本地优先开发到尝试新的插件系统，团队也一直在努力为外部开发人员提供可扩展的系统，计划为改进和增添新功能创建奖励。

总之，Stable Studio的发布重申了Stability AI对开源和透明化的承诺。

3、发布Stable SDK

在过去的一个月里，该公司还开源了其它工具和模型，包括：用文本生成动画的工具Stable Animation SDK以及大型语言模型套件Stable LM。

Mostaque在推特上说:“我们的使命是为激活人类潜力奠定基础，而模型是乐高积木。”

Stable Animation SDK是一款专为艺术家和开发人员设计的工具，可实现最先进的Stable Diffusion，以生成令人惊叹的动画。

用户可以通过各种方式创建动画，包括：通过提示(没有图像)、源图像或源视频。

随着Stability AI的动画端点，艺术家有能力使用所有Stable Diffusion模型生成动画，包括：Stable Diffusion 2.0和Stable Diffusion XL。

创建动画共有三种方式：

（1）文本到动画：用户输入文本提示并调整各种参数以产生动画。

（2）文本输入+初始图像输入：用户提供一个初始图像，作为创建动画的起点。文本提示符与图像一起使用可以输出最终的动画。

（3）输入视频+文本：用户提供一个初始视频作为动画创建的基础。通过调整各种参数，他们可以获得一个由文本提示符指导生成的最终动画。

Stability SDK发布后，用户可以使用Stable Diffusion创建动画。结果很别致，计算成本很高，并且具有非常独特的风格。

4、发布Stable Vicuna

世界上第一个RLHF LLM开源聊天机器人

最近几个月，聊天机器人的开发和发布取得了重大进展。因此，通过调整聊天语言模型创造更好的用户体验成为了热门话题。而开放访问和开源替代品的出现进一步激发了这种兴趣。

这些开源聊天模型的成功归功于两种训练范式：指令微调和基于人类反馈的强化学习（RLHF）。虽然研究者已经能够通过构建开源框架帮助训练这类模型，但始终缺乏同时应用这两种范式的开放访问和开源模型。大多数模型都是在没有RLHF训练的情况下使用指令微调。

最近，Open Assistant、Anthropic和Stanford已经开始向公众提供聊天RLHF数据集。这些数据集结合trlX提供的RLHF直接训练，构建出RLHF模型的支柱：Stable Vicuna。

Stable Vicuna是第一个通过RLHF训练的大型开源聊天机器人，能够进一步进行指令微调，是一个指令微调的LLaMA 13b模型。

这里有一些基准测试，展示出Stable Vicuna与其它类似大小开源聊天机器人的整体性能。

为实现Stable Vicuna的强大性能，研究者以Vicuna为基础模型，并遵循Steinnon等人和Ouyang等人提出的典型三级RLHF。具体来说，他们混合三个数据集，并使用监督微调进一步训练基本模型:

（1）Open Assistant对话数据集（OASST1）是一个人工生成、人工注释的助理式对话语料库，包含161443条消息、7213个偏好样本，分布在66497棵对话树中，使用35种不同的语言。

（2）GPT-4 All Prompt Generations是由GPT-3.5 Turbo生成的437,605个提示和响应的数据集。

（3）Alpaca是一个由Open AI的text-davinci-003引擎生成的包含52,000条指令和演示的数据集。

最后，研究者使用trlX执行近端策略优化（PPO）强化学习，对SFT模型进行RLHF训练，获得Stable Vicuna。

你可以从HuggingFace Hub上获得StableVicuna-13B。请注意，你还需要访问原始LLaMA模型，这需要使用GitHub repo或链接单独申请LLaMA权重。一旦你有了权重delta和LLaMA权重，就可以使用GitHub repo中提供的脚本来组合它们并获得StableVicuna-13B。

这只是Stable Vicuna的开始！接下来的几周内将对聊天机器人进行迭代并在Stable Foundation服务器上部署Discord机器人。目前，您可以在Hugging Face空间上试用该模型。

5、将开源信息带到美国首都

近些天，Stability AI公布了它发给美国参议院隐私、技术和法律司法小组委员会领导人理查德·布卢门撒尔和乔希·霍利的书面评论。

在信中，Mostaque强调了5月4日向白宫发送的一项声明。即，该公司将参与一项倡议，通过社区主导，测试评估大型人工智能模型。在这封信后还附上了一篇题为“提升人工智能开放模型透明度的重要性：对美国人工智能监管的思考”的论文。

“我们鼓励小组委员会大力促进人工智能的开放性，”Mostaque在信中说。“这些技术将成为数字经济的支柱，公众能够监督它们的发展至关重要。开放模型和开放数据集将有助于提升安全性、促进竞争并确保美国在提升人工智能关键能力方面保持战略领先地位。”

参考资料：

Latest moves show Stability AI is fully committed to open source — well, mostly

https://venturebeat.com/ai/latest-moves-show-stability-ai-is-fully-committed-to-open-source-well-mostly/