大模型之视频图像生成之工作流——ComfyUI和AI炼丹师原创

AI探索时代

发布于 2024-9-27 17:41

浏览

0收藏

“ 工作流既是对大模型技术的补充，又是大模型市场化的一个重要方向 ”

作为学习人工智能技术的人来说，工作流应该是一个耳熟能详的技术，由于大模型的短板原因(逻辑推理，幻觉，知识不足等问题)，导致大模型在实际应用中存在很多问题。

而又为了让大模型能够解决现实中工作与生活中的问题，技术人员就想了一个办法，利用工作流结合大模型来完成任务，比如字节旗下的coze扣子平台。

而今天我们要介绍的是基于SD(Stable Diffusion)扩散模型开发的工作流组件，与其对应的还有WebUI。

什么是ComfyUI，它有什么用？

ComfyUI 是一个开源项目，主要用于构建和可视化机器学习工作流程，特别是在图像生成领域中非常受欢迎。它为用户提供了一个基于节点的界面，使用户能够通过连接不同的功能节点来创建复杂的图像生成任务。这些节点代表了图像处理的不同步骤，比如文本到图像的转换、图像到图像的变换等。

在传统的AIGC领域中，AIGC通常被用来生成文字，图片和视频，在之前的文章中也讲到过关于AIGC方面的内容。

而AIGC面临主要面临的是什么问题？

AIGC面临的主要问题其实是小众领域，比如大模型在一些公众领域表现良好，比如二次元，古风这些知名度比较高的领域；但如果让AIGC生成一个抓泥鳅的视频可能就没那么好了。

原因是什么？

原因就是之前说的，大模型在垂直领域表现不佳，不论是AIGC，还是知识库亦或者是Agent都面临着这样的问题。

怎么解决这种问题？

解决这种问题最好的方式就是重新设计与训练一个垂直领域的大模型，但这种情况成本太高；而退而求其次，就是对大模型进行微调，但同样的微调对很多小微企业也是不可接受的，不论是从成本角度还是从技术角度。

那么为什么要用工作流呢？

在当今训练和微调大模型成本高居不下的情况下，训练和微调一个大模型的成本实在是太高了，对绝大部分企业来说都得不偿失。

而工作流的出现，在某些方面替代了大模型的微调功能；所谓的工作流，就是把任务拆分成一个一个的字节点，通过多个节点的配合达到最终目的。

而工作流在其中扮演着什么角色呢？

比如说让大模型帮我生成一个美女跳舞的视频，然后有多种风格可以选择；而大模型直接输出的结果可能不尽人意。

这时工作流的作用就体现了，比如说工作流由多个节点组成，第一个节点帮我生成一个美女跳舞的视频；第二个节点，帮我在之前视频的基础上，生成一个古风的跳舞视频；亦或者生成一个二次元的视频。

大模型之视频图像生成之工作流——ComfyUI和AI炼丹师-AI.x社区

这时通过工作流的方式，就可以把一个任务拆分成多个任务，这时就相当于给了大模型“思考”的时间，这时大模型的表现自然就会更好。

从事这种设计工作流辅助大模型进行任务处理的人员，就叫做AI炼丹师；它们的任务就是根据需求，设计不同的工作流，让大模型用更小的成本，处理更复杂的任务。

本文转载自公众号AI探索时代作者：DFires

原文链接：https://mp.weixin.qq.com/s/kqdiDYuY8rmdFsFml5t6Uw

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大模型

视频图像生成

已于2024-9-27 17:49:37修改

相关推荐

生成式AI大模型之提示词工程实践

数字化助推器 • 1625浏览 • 0回复
吴恩达深度剖析：AI Agent 工作流的演进与前景

wsp_ping • 5835浏览 • 0回复
大模型技术细节——大模型之文本生成与文档总结

AI探索时代 • 2873浏览 • 0回复
可信Agent构建之道：AI如何重塑工作流？

ermulong • 669浏览 • 0回复
可信Agent构建之道：AI如何重塑工作流？

xuxiangda • 706浏览 • 0回复
大模型开发之算子

AI探索时代 • 3546浏览 • 0回复
Agent工作流记忆 - 让AI助手更聪明地完成复杂任务

芝士AI吃鱼 • 971浏览 • 0回复
再谈大模型工作流技术之——ComfyUI框架

AI探索时代 • 3749浏览 • 0回复
记一次ComfyUI工作流bug查找过程

AI探索时代 • 947浏览 • 0回复
大模型微调方法之QLoRA

shizhi02 • 777浏览 • 0回复
大模型图像处理技术之扩散模型——Diffusion Model

AI探索时代 • 1118浏览 • 0回复
o1蒙特卡洛树的风又吹到了Agentic工作流！

PaperAgent • 996浏览 • 0回复
经典图像模型解读之Swin-Transformer

shizhi02 • 1142浏览 • 0回复
深度解析 REAcT Agent 的实现：利用 LlamaIndex 和 Gemini 提升智能代理工作流

Halo咯咯 • 2302浏览 • 0回复
RAG工作流哪种组合效果最佳？深入探究RAG领域最佳实践

水晶花雨_32 • 477浏览 • 0回复
4种革新性AI Agent工作流设计模式全解析

大语言模型论文跟踪 • 938浏览 • 0回复
RAG工作流哪种组合效果最佳？深入探究RAG领域最佳实践

水晶花雨_32 • 1279浏览 • 0回复
大模型之深入探索RAG流程

一起AI技术 • 585浏览 • 0回复
COZE应用：3分钟用字节“扣子”打造股票AI分析工作流

风云2002_1 • 895浏览 • 0回复

AI探索时代

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

大模型之视频图像生成之工作流——ComfyUI和AI炼丹师原创

什么是ComfyUI，它有什么用？

而AIGC面临主要面临的是什么问题？

原因是什么？

怎么解决这种问题？

那么为什么要用工作流呢？

目录

51CTO

51CTO博客

51CTO学堂

大模型之视频图像生成之工作流——ComfyUI和AI炼丹师 原创

什么是ComfyUI，它有什么用？

而AIGC面临主要面临的是什么问题？

原因是什么？

怎么解决这种问题？

那么为什么要用工作流呢？

目录

大模型之视频图像生成之工作流——ComfyUI和AI炼丹师原创