鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文精华

发布于 2024-6-3 09:29

浏览

0收藏

ControlNet作者新项目，居然也搞起大模型和Agent了。

当然还是和AI绘画相关：解决大伙不会写提示词的痛点。

现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”：

a funny cartoon batman fights joker（一幅有趣的卡通蝙蝠侠与小丑战斗的图画）

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

这就是ControlNet作者Lvmin Zhang的新玩具Omost。Omost这个名字有双层含义：

发音与英文单词almost（几乎）相似，意味着每次使用Omost后，用户所需的图像几乎就完成了；
“O”代表“omni”（全能的），“most”表示希望最大限度地利用它。

这个新项目让网友直呼：也太强了！

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

放大翻译成中文来看，用户简短的提示词会被拆解扩展，从图像全局描述到局部每个元素的都会详细说明，直观地指定图像中各个元素的位置和大小。

之后，特定图像生成器根据LLM描绘的“蓝图”创建最终的图像。

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

而且，已经完成的图像整体布局可以保留，想修改画面中的某个元素，也只需一句提示词。

原版是这样婶儿的：

generate an image of the fierce battle of warriors and the dragon（生成勇士与龙的激烈战斗的图像）

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

然后把龙变成恐龙：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

目前，Omost用来生成代码的LLM有基于Llama3和Phi3变体的三种模型，Lvmin Zhang还放出了Demo大伙儿可以试玩。

网友们第一时间也纷纷上手尝试：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

不禁感慨Lvmin Zhang的项目都很鹅妹子嘤：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

729个框，设定图像所有元素的位置

Omost目前提供基于Llama3和Phi3变体的三种LLM。

下面扒开Omost看看里面有什么。

首先，所有的Omost LLM都经过训练，可以提供严格定义的子提示，大伙儿可以利用其来设计无损文本编码方法。

“子提示”（sub-prompt）指的是如果一个提示少于75个token，并且能够独立描述一个事物，不依赖于其他提示，就是“子提示”。

Omost通过预定义的位置、偏移量和区域这三大参数来简化图像元素的描述。

首先将图像划分为3*3=9个位置：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

然后进一步将每个位置划分为33个偏移量，得到99=81个位置：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

以这些位置为中心，进一步定义了 9 种类型的边界框：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

如此一来就涵盖了999=729个不同的边界框，几乎涵盖了图像中元素的所有常见可能位置。

接下来，distance_to_viewer和HTML_web_color_name两大参数调整视觉表现。

组合distance_to_viewer和HTML_web_color_name可以绘制出非常粗糙的构图。

例如，如果LLM效果良好，“在暗室的木桌上的红瓶子前面有一个绿色瓶子”应该可以计算出如下图像：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

此外，ControlNet作者Lvmin Zhang还提供了一个基于注意力操纵的Omost LLM的baseline渲染器。并总结了目前要实现区域引导的扩散系统的一些选择。

基于注意力分数操作，他编写了一个baseline公式，并认为这种无参数公式是一个非常标准的baseline实现，几乎会引入zero style偏移或质量下降。将来，他们可能会考虑为Omost训练一些参数化方法。

具体来说，现在考虑一个只有2*2=4像素的极简化图像：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

有三个提示“两只猫”、“一只黑猫”、“一只白猫”，有它们的掩码：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

然后就可以画出这个注意力分数表：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

简而言之，就是通过调整注意力分数来控制模型在不同区域的关注度，来实现更精细的图像生成。

此外，Lvmin Zhang还发现了另一种可以提高提示理解的技巧，并称其为提示前缀树（Prompt Prefix Tree）。

因为现在所有的提示都是可以任意合并的子提示（所有子提示严格少于75个token，通常少于40个标记，描述独立的概念，并且可以任意合并为clip编码的常规提示），找到一种更好的方法来合并这些子提示可能会改进结果和提示描述。

例如，下面是一个全局/局部整体/详细描述的树结构：

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

由于所有子提示都可以任意合并，因此可以将此树形图中的路径用作提示。

例如，下面的路径将给出提示“一只猫和一只狗。沙发上的猫”。

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文-AI.x社区

感兴趣的家银亲自上手玩玩吧～

GitHub链接：https://github.com/lllyasviel/Omost
Demo链接：https://huggingface.co/spaces/lllyasviel/Omost

本文转自量子位，作者：量子位

原文链接:https://mp.weixin.qq.com/s/18XdJ4R6QcofH4b-9HV0qQ

标签

赞

收藏

回复

举报

回复

相关推荐

生成式AI大模型之提示词工程实践

数字化助推器 • 2025浏览 • 0回复
超能AI一句话修出创意大片，亲妈看了都说真

Crystalcxt • 2291浏览 • 0回复
大模型卷爆数字人：一句话5分钟实现定制，跳舞主持带货都能hold住

Crystalcxt • 1680浏览 • 0回复
GPT-4o热潮来袭：探索图生文本的奥秘（多模态大模型系列之一）

鱼虫子 • 4340浏览 • 0回复
哪个中文开源大模型在信息抽取上效果最好？附：用于提取的提示词

大语言模型论文跟踪 • 3624浏览 • 0回复
RePrompt：提示词自动化优化策略

大语言模型论文跟踪 • 3182浏览 • 0回复
Advanced RAG 09：『提示词压缩』技术综述

Baihai_IDP • 1553浏览 • 0回复
ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star

轻薄滴假象 • 1764浏览 • 0回复
什么是提示词工程(prompt engineering)？为什么需要提示词工程？

AI探索时代 • 4279浏览 • 0回复
一句话意外挖出了 Kimi 的隐藏提示词，原来 Kimi 的限制措施是这么实现的（附完整提示词）！

wsp_ping • 1.2w浏览 • 0回复
大模型提示词进阶，零样本提示, 一次样本提示和少样本提示以及思维链(Chain of Thought, Cot)

AI探索时代 • 2204浏览 • 0回复
大语言模型时代，提示词才是王道：堪比专业翻译软件的提示词

sulu637 • 998浏览 • 0回复
由浅到深，揭示ChatGPT提示词背后的本质，让它火力全开

ermulong • 1276浏览 • 0回复
关于大模型的使用——提示词工程

AI探索时代 • 1646浏览 • 0回复
Omost：极简提示词的文生图工具

sword_hero • 1060浏览 • 0回复
AI玩词谜游戏：编剧式提示让大模型实力大增！ | AI的自主"智慧寻宝"！一个检索模型的诞生

sbf_2000 • 771浏览 • 0回复
ICLR 2025惊现满分论文，ControlNet作者再出佳作

AI论文解读 • 2896浏览 • 0回复
如何借助 kimiChat 创造好用的提示词？一招教会你

wsp_ping • 994浏览 • 0回复
大模型提示词，事实上就是一种聊天技巧

AI探索时代 • 701浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成 2025-02-26 11:59:41发布
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩 2025-02-14 13:02:21发布

热门推荐

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

DeepSeek R1 全系列模型部署指南 0回复

上一篇：用硅模拟人脑，进度条走到了1/80

下一篇： AI读论文新神器：多栏密集文字、中英图文混排文档都能读的多模态大模型Fox

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载