DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

人工智能 新闻
今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。

图片

不仅如此,CogView4还具备极高的灵活性,支持生成任意宽高比的图片,同时接受任意长度的提示词输入,满足用户多样化的创作需求。更令人期待的是,后续还将开源对应的Controlnet、Comfyui支持及模型微调工具,为用户带来更加便捷、高效的创作体验。

图片

在DPG-Bench基准测试中,CogView4凭借卓越的表现荣获综合评分第一,彰显了其在图像生成领域的强大实力。今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。

CogView4主要特点总结如下:

  • 支持中英双语提示词输入,擅长理解和遵循中文提示词
  • 首个能够在画面中生成汉字的开源文生图模型
  • 支持生成任意宽高的图片以及任意长度提示词输入

相关链接

  • 论文:https://arxiv.org/pdf/2403.05121
  • 项目:github.com/THUDM/CogView4
  • 模型:huggingface.co/THUDM/CogView4-6B
  • 试用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

图片

效果展示

图片

推理要求与模型介绍

  • 分辨率:宽度和高度必须介于512px和之间2048px,可被 整除32,并且确保最大像素数不超过2^21px。
  • 精度:BF16 / FP32(不支持 FP16,因为它会导致溢出,从而导致图像完全变黑) 使用BF16精度为batchsize=4进行测试,内存使用情况如下表所示:图片

模型指标

DFG-Bench

图片

GenEval

图片

T2I-CompBench

图片

Chinese Text Accuracy Evaluation

图片

责任编辑:张燕妮 来源: AIGC Studio
相关推荐

2024-05-14 16:58:05

腾讯混元大模型文生图

2024-05-15 17:30:51

开源模型

2023-08-09 10:08:00

模型AI

2024-10-28 09:47:53

2023-12-25 13:24:00

模型OCR页面

2023-09-16 13:31:25

模型训练

2015-08-18 15:19:51

2020-07-16 13:00:18

人工智能机器学习技术

2020-07-20 09:49:56

开源技术 趋势

2021-10-15 15:26:10

AI 数据人工智能

2020-06-08 11:16:06

百度

2024-09-05 12:11:25

大模型抓取列表页

2015-12-01 11:17:41

Windows 10Version 151镜像

2010-04-06 09:33:37

CentOS系统

2013-06-21 10:48:18

WP7Windows Pho中英文互翻译

2009-10-20 14:07:00

CCIE必读书籍

2009-08-13 09:26:14

.NET正则表达式

2009-03-17 09:52:22

Unicode中英文Python

2024-06-14 16:24:42

点赞
收藏

51CTO技术栈公众号