基于GPT-X的商品文案和图片生成实践-51CTO.COM

一、导言

1、2022年末火出圈的OpenAI与AIGC

2022年是AI历史上具有里程碑意义的一年，AI发展为作家、画家、音乐家、导演等，特别是ChatGPT让AI彻底出圈，不断有非计算机专业的人谈论AI是否能够颠覆已有的模式。ChatGPT也成为继抖音以后，最快的月活过亿的产品。

2、回顾GAN以来的最重要AIGC的工作

先回顾一下过去十年来 AIGC 领域中比较重要的工作。2013年至2017年主要处于基础理论逐渐完善的阶段，在这个阶段VAE、GAN、Transformer等深度神经网络横空出世，处于基础组件逐渐诞生和完善的阶段；2018年至2021年，超大规模的模型逐渐流行，多模态逐渐融合，并且大语言模型的预训练的学习方式成为可能， Few Shot Learning和Incontext Learning等学习范式被提出；从2022年到现在处于第三个阶段，AIGC集中爆发，模型效果的真实性、计算效率全面提升。最近，微软发表文章说明大模型能力涌现，强人工智能已经开始出现。

二、商品文案生成

1、为什么需要AI生成产品文案

产品文案对于电商导购过程是非常重要的，因为很多购物者可能首先会被产品的标题所吸引，很多的售后问题可能源于产品的描述错误（产品与描述不符）。但是，编写产品的文案是一件令人头疼的事情，因为好的文案需要首先了解人群的画像，还需要很多SEO的技巧，想要持续产出高质量的文案需要投入大量的人力。

随着AI技术的发展，自动生成高质量的产品文案，不但可以满足客户的需求，还可以持续追踪热门事件，不断提升文案的质量和稳定性。

下图右侧是两个例子，一个是传统的服饰电商，另一个是酒旅行业。客户只需给出产品的特点，大语言模型技术直接生成相应的文案。

2、问题定义

那么该如何定义该问题？以民宿文案设计为例，在实际的应用中，原始数据可能是一些结构化或非结构化的数据，客户可能也不清楚产品的卖点是什么。如何做卖点提取，卖点提取以后如何生成标题。这些都需要其它技术介入。

由于今天分享的是AIGC的方向，所以主要聚焦于卖点已知的情况下，如何生成较好的文案。如客户只需要简单地输入房型、风格等特征的描述，模型就能够识别出其中比较重要的信息，并以比较好的文采对产品的标题或描述进行润色或生成。

3、阶段一：基于模板的技术方案

几年前，我们也尝试过使用基于模板的方式做类似的任务。做法是首先提取产品的知识，对知识进行结构化处理，形成知识图谱。在知识图谱的基础上，做核心卖点的选择、模板的选择和卖点的填充。这种做法主要基于模板实现，受限于模板数量和人为的总结，相对来说比较死板。

4、模板填充—>大规模语言模型

结合近期技术的进步，我们考虑结合纯粹的生成式语言模型的方案是否可行。特别是在ChatGPT出来之后， GPT系列的模型已经可以帮助人们实现一些评论、邮件的写作，因此考虑使用类似的生成模型完成上述的任务。在初步的实验后，取得的效果比基于模板的结果更好。在这之后，我们又进行算法上的迭代。在深入这部分内容前，我们先来回顾一下 GPT 系列模型的基本原理。

5、GPT原理解读1：语义模型的思想

在正式介绍具体的技术方案前，先介绍一下GPT的原理。GPT的核心思想比较简单，即人类的知识蕴含于人类的语言中，如果能完美地预测下一个词，那么模型也可以模拟人类的思维，也就具有了智能。假设当n=t时，可知，当n=t+1时，也可以预测。任何与语言相关的任务，可以抽象为这类生成任务，都可以用语言模型的方式求解。

但和数十年前的语言模型不同的是，现在的语言模型通过大规模Transformer的深度神经网络进行建模。好处是：

可以更准确地建模下一个词的概率；
可以进行高效的模型训练和推理；
可以解决基于长距离的语义依赖。

6、GPT原理解读2：模型的演进过程

由OpenAI的技术迭代过程可以发现，不仅模型的规模越来越大，数据的规模也在增加。在大规模语料数据、大规模模型的基础上，模型的能力也越来越强，发展到GPT-4不仅可以处理文本语言，也可以处理多模态的数据。由于 GPT-4从公开的资料中能获取的信息非常有限，这里仅列举一下 GPT-3.5 之前OpenAI推出的模型相关参数（GPT-3.5是OpenAI推出的一列模型，ChatGPT 又称 GPT-3.5-Turbo，但不在此表中）。

7、GPT原理解读3：ChatGPT & RLHF

去年年末，OpenAI又提出了ChatGPT（GPT-3.5-Turbo）及人工强化学习反馈的技术，对整个社会造成了巨大的影响。通过该技术，实现AI对齐人类偏好的能力。ChatGPT之前的模型已经具备了很好的文本生成的能力，但是生成的文本和人类的偏好没有对齐，ChatGPT主要针对人类的偏好进行对齐。

这个训练过程主要分为三个阶段：

SFT阶段: 使用人工续写数据对text-davinci-003模型进行有监督微调；
RM阶段: 人工标注排序数据，使用pairwaise ranking 模型训练奖励模型；
RLHF阶段：使用强化学习PPO微调大语言模型。

需要说明的是，斯坦福大学在羊驼的基础上，使用Self-Instruct技术进行训练，并没有使用RLHF的训练方式，取得的效果也不错。

8、超100亿参数规模的语言模型迭代路径

近期的一篇综述文章，调研了超100亿参数规模的语言模型迭代路径。为什么是100亿？模型在100亿参数时会出现涌现的能力，而这在以前的小模型中是不存在的。实验发现，模型在60-70亿参数量时，模型的能力会显著提升，这也是ChatGPT或类似模型有如此强大的功能的基础。

这里主要包含了以下几个方面，首先是In-Context learning，即上下文学习，是OpenAI提出的一种模式，不需要梯度更新，只需给出一些例子，模型能够知道该例子的含义，对于新的任务，模型能够给出不错的预测结果。第二是Instruction Following，模型能够听懂指令，例如，给出指令：帮我写代码，模型能够给出较好的response。最后就是Step-by-step reasoning，之前的语言模型在解数学题时表现不好，谷歌提出了train of source的工作，使模型可以一步步地学习，在常识推理、逻辑推理及数学题中表现较好，这也是大模型在100亿参数量的基础上可能会涌现出来的能力。

9、阶段二：基于语言模型的技术方案

由于算力的限制，我们首先在GPT2的基础上进行微调，发现效果比基于模板的结果更好。但在其中也发现了一些问题，生成的信息虽然多样、丰富，但只能产生较高频的内容，对于低频的内容效果较差。因为对于民宿来说，这是一个非标品，如果所有的文案都讲述相同的内容，并不能有效地吸引客户。因此，在这基础上，希望模型能够对齐人类的偏好。因此，在GPT2的基础上，做了第二阶段的优化，将其应用于生成任务。

10、阶段三：基于语言模型的改进方案

受限于当时的解决方案及算力的影响，效果不太理想。因此，参考了ChatGPT的训练方式，采用三阶段进行训练。首先，收集质量较好的数据，对模型进行微调。其次，使用模型生成数据样本，并对这些数据进行排序。最后，利用排序完的数据对模型进行第二次的微调。在训练两轮后，发现模型收敛的效果还比较好。

11、Case分析

以下是一些结果的Case分析，对比于GPT2的微调模型来说，改进后的方案能够识别特色卖点，并且在排序上能够更加突出这种卖点。这相当于模型对齐了人类的评估标准。

12、商品文案生成总结

我们的方法首先是基于GPT2的模型进行微调，模型规模较小。其次，我们的任务更加简单，只限于文案的生成。在第一阶段，ChatGPT采用人工标注的方式，我们的方案选用的是精选数据集，因为我们的场景，可以更高效的获取监督数据，因此该阶段无需人工标注。在第二阶段，也基于pair-wise损失训练了ranking的模型。在第三阶段，基于大规模的数据标签进行两轮微调。

三、商品图像生成

1、为什么需要AI生成产品图片

在电商领域，图片是非常重要的，但是实际的拍摄过程是非常复杂的，成本也比较高，但产品的迭代时间却比较短，对图片有大量的优化的需求。基于AI，以相对简单的文本约束的方式，生成产品图片，特别是对于服饰产业，可以大量缩短图片生成的时间，降低原流程的时间、成本。因此，我们在这个方向上进行探索。

2、Text2Image里程碑

首先介绍部分关于文本生成图像的一些具有里程碑意义的工作。2021年，DALL-E 1的出现具有划时代的意义，使得从文到图的生成模型具有商业落地的潜力。之后，不断有人在这一领域进行研究，包括DALL-E 2，不但实现了效果的提升，还降低了参数量。Stable Diffusion的出现也是石破天惊的一项工作，不但生成的效果好，而且可以在消费级的显卡上工作，降低了AIGC的门槛。最近非常火爆的LoRA技术，不但可以在消费级的显卡上使用，还可以对模型进行微调，更加降低了参与的门槛，促使大量的人和资本涌入这一领域。

3、技术的快速演进：如何画好一个人像？

这里以人像等自动生成为例，我们可以看到：从21年的VQGAN-CLIP到Stable Diffusion的快速演进，技术正在快速进步。而近期的ControlNet可以根据人的姿势或线光图直接生成结果，这更是具备了商业落地的可能性。

4、Stable Diffusion原理解读1：扩散模型

Stable Diffusion的思路比较简单，相当于使用U-Net预测噪音，即不断在原图的基础上增加噪声，将带噪音的数据作为输入，使用U-Net预测原始图像及加噪声的过程。通过这种模式，使通过噪音生成图像称为可能。

5、Stable Diffusion原理解读2：隐扩散模型

在Stable Diffusion的基础上，还提出使用隐向量的训练方式。原先的Diffusion加噪音的过程作用于图片，即中间过程和原始过程接近。而隐扩散模型使用Auto Encoder将中间过程映射到隐空间中，这有利于将中间过程进行降维计算，在高维空间进行解码，这也是它能够支持大分辨率图像，降低显存计算资源的主要原因。

6、Stable Diffusion原理解读3：模型整体结构

对于文字部分的编码，Stable Diffusion引入了CLIP，并通过cross attention的方式融入模型中。使用CLIP对Prompt进行编码，通过U-Net、cross attention作为控制条件引导图像的生成过程。总的来说，Stable Diffusion通过构建LDM，解决了直接在高维空间进行计算带来的资源消耗和精度控制的限制，并且取得了非常好的效果。最关键的是，整个结构可以在消费级的显卡上进行使用，极大地促进了AIGC行业的发展。

7、Stable Diffusion的后续迭代技术

在Stable Diffusion之后，最近也有许多相关工作的迭代，包括Textual Inversion、DreamBooth、ControlNet和LoRA，这些模型使得生成的图像更加逼真，并且用户可以提供更多的控制条件，微调训练的速度更快，微调的参数量更少，需要的显存更少。

8、AI Writer图片生成展示

我们在这方面的工作主要集中在电商的图片生成，如提供一些商品的买点关键词，然后由模型自动生成相应的图片。

9、基于Stable Diffusion的电商图片生成

具体做法是：采样Stable Diffusion模型进行微调，主要微调CLIP部分。首先爬取电商数据，在此基础上，通过用户的评论数量、收藏数量、成交等信息进行筛选，然后，使用CLIP对这些内容进行打分，保留标题和图片相关度较高的数据作为训练集进行训练。

10、电商服饰产品图片制作流程

原始的电商服饰产品图片制作流程包括：摄影师拍照，模特摆拍，美工后期处理、交付等，使用模型进行图片生成，可以免去模特、摄影师成本，可以根据运营需求及时调整。

经过我们对市场的调研，发现电商行业内对图片素材的自动生成需求很大。但从技术上来说，目前整个图片生成的工作还处于探索阶段，虽然流程已经打通，但是对质量要求较高的图片的生成还有一定的局限性。这个领域的进展非常快，我们也在不断的吸取经验，不断迭代优化，就目前而言，小图、概念图、缩略图的生成结果较好，高清大图还很难一次成片。

四、结语

文章开头回顾了近期文本、图像等相关领域的重要工作，讨论了大模型在电商领域带来新的机遇与挑战；随后，我们介绍了数元灵在电商文案生成基于GPT 模型的实践，对比不同版本的模型的迭代效果并进行了分析；最后，介绍了数元灵在电商图像生成基于Stable Diffusion 的实践。

AIGC目前的发展速度很快，未来我们也可能基于最新的技术进展进一步迭代模型。新技术得出现，让以前可能需要非常大计算资源才能做的产品，现在可能不需要那么多资源也能启动。

下面谈一下针对电商领域，AIGC可能会带来以下变革：

导购链路：比如和OpenAI合作的Shop，以对话的形式进行交互，客户提出想法、需求，模型推荐不同的产品，新的技术出现让这种产品交互模式成为可能。
制造和供应链：虽然对于质量较高的图片生成，目前的技术还不能实现。但对于制造方向，如CALA可以生成设计图，这能够降低服装设计的门槛，降低设计的成本。
运营效率：如AI Writer可以自动生成多条运营文案，运营同学可以调整生成的因子，挑选合适的文案。这种方式能够降低运营成本，提高运营效率。毕竟选择题要比主观题做起来容易得多。

下图中的网站给出了许多的大模型应用场景，不仅仅局限于ChatGPT，还有Bard等。

目前，在国内做通用大模型或国产的ChatGPT可能并不是一个最优的选择，因为这需要大量的积累，对于我们普通创业者和开发工程来说，可能会有以下机会：

解决大模型并不擅长的事情，如处理长文本，更及时地知识的更新等；
基于大模型改造既有业务，包括电商行业或其他行业，可能每个行业在这个时代都会重新做一遍；
大模型时代的Linux社区，目前开源社区已经是遍地开花的状态，大语言模型的iPhone时刻已过，相信Android时刻未远也！

五、Q&A

Q1：有没有可能做小型的通用模型，如果可以，有什么技术方案？

A: 这需要根据模型的大小来确定，就目前来看，如果模型的参数小于100亿，不太可能出现通用的能力，对于世界知识或指令的理解、推理能力比较差，至少可能需要60-70亿参数的模型才会逐渐出现这种通用的能力。

Q2：商品文案生成时，有什么方法能够加入风格化的元素，比如说抖音、小红书等描述风格？

A：这也是我们正在做的事情，目前是通过Prompt引导模型生成不同风格的文案。另外，可能需要一些抖音、小红书风格的标注数据，再生成时通过Prompt引导模型。

Q3：有没有可能出现幻觉问题，如果产生错误的信息应该如何控制？

A：文案中出现幻觉或虚假信息都是可能的。目前的解决方案是生成多个候选，然后进行后处理。

Q4：文案生成有哪些需要特别注意的点？

A：最重要的应该是收集高质量的数据。其次可能是如何对模型进行微调。

Q5：在一个细分领域可以做AIGC吗？

A：这是可以的，也是我们目前正在做的事情，而且参数的规模可能不需要那么大。

Q6：ChatGPT和Internet结合是不是可以解决数据延迟的问题？

A：这是可以的。

Q7：100亿及以上的模型需要多大的算力？

A：如果是微调模型，8块A100肯定是可以的。如果没有A100，V100也是可以的。具体的设备要求和模型参数量、数据量、训练时长都有关系，需要具体情况具体分析。

Q8：有没有比较好的支持中文的预训练大模型？

A：hugging face上应该有很多中文的大模型可以使用。

Q9：生成结果如果存在许多不合常识、不合逻辑的问题该如何解决？

A：这也是我们开始尝试时遇到的问题。在根据商品属性生成图片时，效果不理想。我们的解决方案是首先将商品数据进行归一化处理，其次，将比较稀疏的属性过滤，如使用TF-IDF挑选出重要的属性等。这个问题主要来源于数据质量。

Q10：在AI创作领域，AIGC不能解决的问题和局限性有哪些？

A：目前比较难的应该是视频生成的领域。Meta提出的Make-A-Video也只能生成一些短视频，而且质量也不理想。高分辨图片中细节的部位生成的效果也是一个难题。

Q11：在电商领域，还有哪些痛点可以通过AIGC解决？

A：理论上说，会话的模式可以解决所有和商家、客户沟通的事情，这都是ChatGPT能够解决的事情。比如，目前大多数的客服机器人都是通过规则来实现的，在ChatGPT后可以通过ChatGPT和知识相结合的方式来完善。

Q12：BERT可以做哪些任务？

A：BERT通常用于分类、实体识别等识别类任务。GPT可能更擅长生成类的任务。可以在BERT最后一层接上不同的任务层，做识别类的任务，如亮点识别等。

Q13：AIGC在自动化运营层面有什么可以结合的思路？

A：这需要根据需求来确定。如海外电商通常使用邮件进行交流，这也是一个行业痛点。产品设计图、概念图的生成也是比较好的方向。

Q14：有没有可以展示的案例？

A：有的，链接：http://nlg-demo.dmetasoul.com/ecommerce。但是因为算力的限制，部署用的模型只是一个小模型。