ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

发布于 2024-10-31 14:04

浏览

0收藏

Hi，这里是Aitrainee，欢迎阅读本期新文章。

我们正在使用一些Agent平台如FastGPT和Dify，他们注重于快速生成文本内容，知识库问答，提供自定义能力和与现有系统的集成性。

同时，在AI绘画方面，我们原来使用SD，后来使用ComfyUI。虽然ComfyUI被广泛用于将文本转化为图像（文生图），但它实际上是一种生成式AI内容（AIGC）的工具，其功能不仅限于此。它还能够处理文本生成（文生文），因此可以实现多种内容的生成。

Dify中也有提供ComfyUI的集成工具，他是调用Comfy UI的服务。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

所以，今天我们介绍ComfyUI LLM Party

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

这个工具挺酷的，他专注于LLM集成进ComfyUI里面。旨在基于comfyui作为前端，开发一套完整的LLM工作流构建节点，让用户可以快速便捷地构建自己的LLM工作流，并轻松集成到现有的图片工作流中。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

该插件在 ComfyUI 中支持绝大多数大语言模型，兼容 OpenAI 格式的 API 调用，并结合 OneAPI 调用几乎所有 LLM API。支持的模型包括通义千问、智谱清言、DeepSeek 和 Kimi。

额外功能有：支持 Ollama 本地模型，模型链节点选项（LLM、VLM-GGUF、LLM-GGUF），以及 VLM 模型的图像识别和提示词反推。

实用工具包括 OpenAI 语音识别与合成、Markdown 转 HTML、HTML 转图片，以及通过飞书机器人发送消息到多个平台。

项目愿景：

1、从最基础的 LLM 多工具调用、角色设定快速搭建自己的专属AI助手、到可以行业落地的词向量RAG、GraphRAG来本地化的管理行业内知识库；

2、从单一的智能体流水线，到复杂的智能体与智能体辐射状交互模式、环形交互模式的构建;

3、从个人用户需要的接入自己的社交APP(QQ、飞书、Discord)，到流媒体工作者需要的一站式LLM+TTS+ComfyUI工作流；

4、从普通学生所需要的第一个LLM应用的简单上手起步，到科研工作者们常用的各类参数调试接口，模型适配。

挺酷的，我们图片生成的工作流，一定有许多地方可以和视觉、语音LLM结合，比如：

上下文增强：通过LLM获取用户的意图和上下文，优化生成过程，使生成的图像更符合用户需求。

图像描述生成：使用视觉模型分析生成的图像并自动生成描述，帮助用户理解图像内容，适用于无障碍应用。

又如官方所说的：

您可以将任何 ComfyUI 工作流封装到 LLM 工具节点中。您可以让您的 LLM 同时控制多个 ComfyUI 工作流。当您希望它完成某些任务时，它可以根据您的提示选择合适的 ComfyUI 工作流，完成您的任务，并将结果返回给您。

“您的提示选择合适的 ComfyUI 工作流”，这在我们Fastgpt、Coze或者Dify 中称为：问题分类或意图识别。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

还有一些其他的，比如ComfyUI + GraphRAG，这些就是单纯使用ComfyUI前端实现GraphRAG。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

总之，节点式工作流本身就是千变万化的，给ComfyUI引入LLM的支持，会让它更加适合千变万化的场景，创建更多复杂有趣的应用。

看看模型支持部分，基本上再配合One-API，市面上的模型都能支持，生产场景建议使用VLLM做模型加速部署，以API形式接入，而不是直接Hugging Face加载下载的模型，多说一句，ollama也不如Vllm，前者多卡部署大模型如70B的，推理会很慢，生成环境下基本不行。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

这个项目包罗万象，一直在兼容各种东西的路上，简单的项目描述也要写上许多字才能尽善尽美。

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

部署方面总共两步吧

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

方法一下载较方便，可在ComfyUI中直接安装该插件，之后环境部署就是给你的ComfyUI再添加一些这个插件需要的环境。

快速开始

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

从教程上来看，上手并不难，但是实际上因为它覆盖的东西非常多，你需要深入的话，相应的你需要掌握很多东西，比如一些搜索引擎啊 searxng、neo4j KG、graphRAG、各种LLM的格式、llama.cpp 啊（这些我都弄过，往期文章有，但不全，有一些并没有去写）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）-AI.x社区

具体你可以参考官方介绍。

本文转载自 AI进修生，作者： Aitrainee

标签

LLM

图片

集成

相关推荐

将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习

zhangyannni • 1371浏览 • 0回复
吴恩达深度剖析：AI Agent 工作流的演进与前景

wsp_ping • 6204浏览 • 0回复
Leonardo新增图片样式引导，能精准控制生成图片啦！

Aceryt • 1533浏览 • 0回复
Midjourney大更新，细节最强文本生图片模型来啦！

Aceryt • 1325浏览 • 0回复
可信Agent构建之道：AI如何重塑工作流？

ermulong • 864浏览 • 0回复
可信Agent构建之道：AI如何重塑工作流？

xuxiangda • 928浏览 • 0回复
如何用ai绘画二次元少女图片？带你体验ai图片创作乐趣

行走的小非 • 1072浏览 • 0回复
Agent工作流记忆 - 让AI助手更聪明地完成复杂任务

芝士AI吃鱼 • 1361浏览 • 0回复
大模型之视频图像生成之工作流——ComfyUI和AI炼丹师

AI探索时代 • 2250浏览 • 0回复
再谈大模型工作流技术之——ComfyUI框架

AI探索时代 • 5128浏览 • 0回复
记一次ComfyUI工作流bug查找过程

AI探索时代 • 1214浏览 • 0回复
o1蒙特卡洛树的风又吹到了Agentic工作流！

PaperAgent • 1224浏览 • 0回复
深度解析 REAcT Agent 的实现：利用 LlamaIndex 和 Gemini 提升智能代理工作流

Halo咯咯 • 3393浏览 • 0回复
RAG工作流哪种组合效果最佳？深入探究RAG领域最佳实践

AI博物院 • 706浏览 • 0回复
4种革新性AI Agent工作流设计模式全解析

大语言模型论文跟踪 • 1202浏览 • 0回复
RAG工作流哪种组合效果最佳？深入探究RAG领域最佳实践

AI博物院 • 1810浏览 • 0回复
DeepSeek大模型一体机哪家强？

数字化助推器 • 1377浏览 • 0回复
Agent只是手段，工作流才是内容！

51CTO技术栈 • 263浏览 • 0回复
工作流代理新突破：FlowAgent的合规性与灵活性解析

xuxiangda • 223浏览 • 0回复
什么是工作流？如何创建和编排AI智能体工作流

数字化助推器 • 336浏览 • 0回复

老蛀虫

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

快速开始

目录