鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马精华

发布于 2024-8-2 10:35

1595浏览

0收藏

昨天Midjourney刚进行大更新，今天文生图片开源领域就杀出了一匹大黑马—FLUX.1。

根据其测试数据显示，性能大幅度超过了DALL·E-3、Midjourney V6闭源模型，开源SD3系列的Ultra、Medium、Turbo和SDXL被全线秒杀。

并且FLUX.1表示，文生图只是一个开始，未来还会推出文生视频模型想和Sora、Gen-3、Luma等一线产品过过招。

开源地址：https://github.com/black-forest-labs/flux

在线demo：https://replicate.com/black-forest-labs/flux-pro

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

出道即巅峰专找最硬的打，有点乔峰横扫聚贤庄的意思。原来刚成立的FLUX.1的创始人是老熟人Robin Rombach。

Robin是扩散模型领域的权威之一，其代表作有VQGAN、 Taming Transformers 和Latent Diffusion。

后来，Stability AI收购了Robin的Latent Diffusion模型，并聘请他成为首席科学家，期间他领导了全球著名文生图开源项目Stable Diffusion系列，这也是全球下载最多、使用最广的开源大模型之一。

今年3月末，Stability AI因资金、运营等问题闹“兵变”，联合创始人被罢免，而Robin也选择了离开。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

在沉寂了4个月的时间，Robin成立了新的开源大模型平台FLUX.1，并且已经获得了Andreessen Horowitz领投的3100万美元种子轮。估计以后还会获得大金额融资。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

FLUX.1的基础架构是基于Vision Transformer，使用了流程匹配训练方法，同时使用了旋转位置嵌入和并行注意层来提高模型的性能和硬件利用效率。

FLUX.1有120亿参数，本次一共发布了三个版本：1）Pro版，通过API使用；2）dev版，这是一个非商用的指导蒸馏模型，继承了Pro版多数性能；3）schnell版，可以商用的开源模型。

虽然FLUX.1有三个版本，但在文本语义还原、图片质量、动作一致性/连贯性、多样性等方面超过了Midjourney v6.0、DALL·E 3 、SD3-Ultra等主流开闭源模型，整体性能非常强劲。此外，在文本嵌入图片方面也比这些模型表现的更好。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

以下是FLUX.1模型生成的图片展示。

在一个凌乱的小卧室的墙上，有一个通往魔幻森林的大门。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一张旧教室里黑板的照片。黑板上用粉笔写着“让我们一起做一些非常漂亮的东西”，词后有一个红色的粉笔心，阳光从窗户照进来。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

水下场景中，两只猫头鹰坐在一张精美的餐桌旁，餐桌中央点燃了蜡烛，两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服，右边的猫头鹰穿着漂亮的裙子。

背景中有一艘潜艇驶过，其侧面画着“What a Hoot”字样。桌子下面的图像底部有小水母在游动，电影般美丽的数字艺术品。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

两只穿着维多利亚服装的可爱蜘蛛正在举办一个微型茶会，叶子上有一张小桌子和茶壶。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一位女足球运动员，穿着一件阿迪达斯的球衣，周围是其他运动员模糊效果。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一位三十多岁出头的女子在八角形木制舞池中央弹奏手风琴，舞池有一个木制屋顶，周围是成对跳舞的舞者。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一个超级巨大的黑森林蛋糕，大小如一栋建筑，周围环绕着黑森林的树木。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一个穿着红衣斗篷的超人，在浩瀚、多彩的宇宙中飞行。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

很多人都非常看好这个新模型。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

一次性发布三个模型，确实让人兴奋。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

这V1版本刚发布，就已经有人期待V2版本了。

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马-AI.x社区

怎么样，FLUX.1生成的图片质量、细节和光影效果还行吧，期待一下他的文生视频模型。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Zjyd0-4TTP1XWYUp2jRTng

标签

赞

收藏

回复

举报

回复

相关推荐

在ChatGPT中，能用DALL·E 3编辑图片啦！

Aceryt • 3249浏览 • 0回复
3万被引论文奠定图像生成范式，DALL-E 3/SD背后都靠它

Crystalcxt • 2282浏览 • 0回复
探索DALL·E的强大功能！

echo_ning • 2369浏览 • 0回复
谷歌发布文生图模型Imagen 3，写实效果超强！

Aceryt • 2929浏览 • 0回复
Aditya Ramesh讲DALL·E 2基本原理

AIGC最前线 • 2196浏览 • 0回复
清华、北大与微软推出Glyph-ByT5-v2：渲染高视觉美感文本，海报惊艳，媲美DALL-E3！

PaperAgent • 2950浏览 • 0回复
解锁Diffusion Model: 初识Stable Diffusion、DALL-E、Imagen

鲁班模锤1 • 1962浏览 • 0回复
性能超Llama 3，可商用！开源大模型Falcon 2

Aceryt • 2353浏览 • 0回复
ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜！ReCorD:交互场景生成最新SOTA！

angel • 1901浏览 • 0回复
史上最强文生图模型？谷歌Imagen3内部详细评估资料解读

angel • 3220浏览 • 0回复
ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜！ReCorD:交互场景生成最新SOTA！

angel • 1640浏览 • 0回复
谷歌发布Imagen 3，超过SD3、DALL・E-3

Aceryt • 1499浏览 • 0回复
史上最强文生图模型？谷歌Imagen3内部详细评估资料解读

angel • 1992浏览 • 0回复
SD3、FLUX.1等开源文生图模型，可能将无法使用

Aceryt • 1787浏览 • 0回复
大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

angel • 1315浏览 • 0回复
NeurIPS 2024 | 全面提升文生图SOTA方法！ToMe:基于token合并的免训练文生图语义绑定

angel • 1742浏览 • 0回复
Infinigence AI 发布 Megrez-3B-Omni：3B 设备上开源多模态大语言模型 MLLM

Halo咯咯 • 1163浏览 • 0回复
让SD系列和FLUX.1无痛升级！浙大&vivo提出CoMPaSS：文生图空间理解能力暴涨！

angel • 1126浏览 • 0回复
Runway全面开放新文生图模型Frames

Aceryt • 995浏览 • 0回复

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

183

帖子

1603

声望

1

粉丝

关注

最近发布

别让大模型想太多了，过度思考会影响性能 3天前发布
刚刚，OpenAI发布新文生图模型，免费、逼真到难以分辨 3天前发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

解锁Transformer核心！一文吃透自注意力机制 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

上一篇： Midjourney大更新，细节最强文本生图片模型来啦！

下一篇：谷歌开源Gemma Scope，更好解释大模型工作原理

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载

恭喜您，今日已阅读两篇内容，特奖励+2声望，快来「登录」领取吧。