大模型之视频图像生成之工作流——ComfyUI和AI炼丹师 原创
“ 工作流既是对大模型技术的补充,又是大模型市场化的一个重要方向 ”
作为学习人工智能技术的人来说,工作流应该是一个耳熟能详的技术,由于大模型的短板原因(逻辑推理,幻觉,知识不足等问题),导致大模型在实际应用中存在很多问题。
而又为了让大模型能够解决现实中工作与生活中的问题,技术人员就想了一个办法,利用工作流结合大模型来完成任务,比如字节旗下的coze扣子平台。
而今天我们要介绍的是基于SD(Stable Diffusion)扩散模型开发的工作流组件,与其对应的还有WebUI。
什么是ComfyUI,它有什么用?
ComfyUI 是一个开源项目,主要用于构建和可视化机器学习工作流程,特别是在图像生成领域中非常受欢迎。它为用户提供了一个基于节点的界面,使用户能够通过连接不同的功能节点来创建复杂的图像生成任务。这些节点代表了图像处理的不同步骤,比如文本到图像的转换、图像到图像的变换等。
在传统的AIGC领域中,AIGC通常被用来生成文字,图片和视频,在之前的文章中也讲到过关于AIGC方面的内容。
而AIGC面临主要面临的是什么问题?
AIGC面临的主要问题其实是小众领域,比如大模型在一些公众领域表现良好,比如二次元,古风这些知名度比较高的领域;但如果让AIGC生成一个抓泥鳅的视频可能就没那么好了。
原因是什么?
原因就是之前说的,大模型在垂直领域表现不佳,不论是AIGC,还是知识库亦或者是Agent都面临着这样的问题。
怎么解决这种问题?
解决这种问题最好的方式就是重新设计与训练一个垂直领域的大模型,但这种情况成本太高;而退而求其次,就是对大模型进行微调,但同样的微调对很多小微企业也是不可接受的,不论是从成本角度还是从技术角度。
那么为什么要用工作流呢?
在当今训练和微调大模型成本高居不下的情况下,训练和微调一个大模型的成本实在是太高了,对绝大部分企业来说都得不偿失。
而工作流的出现,在某些方面替代了大模型的微调功能;所谓的工作流,就是把任务拆分成一个一个的字节点,通过多个节点的配合达到最终目的。
而工作流在其中扮演着什么角色呢?
比如说让大模型帮我生成一个美女跳舞的视频,然后有多种风格可以选择;而大模型直接输出的结果可能不尽人意。
这时工作流的作用就体现了,比如说工作流由多个节点组成,第一个节点帮我生成一个美女跳舞的视频;第二个节点,帮我在之前视频的基础上,生成一个古风的跳舞视频;亦或者生成一个二次元的视频。
这时通过工作流的方式,就可以把一个任务拆分成多个任务,这时就相当于给了大模型“思考”的时间,这时大模型的表现自然就会更好。
从事这种设计工作流辅助大模型进行任务处理的人员,就叫做AI炼丹师;它们的任务就是根据需求,设计不同的工作流,让大模型用更小的成本,处理更复杂的任务。
本文转载自公众号AI探索时代 作者:DFires
原文链接:https://mp.weixin.qq.com/s/kqdiDYuY8rmdFsFml5t6Uw