2024-10-15 02:34

智谱开源2款生图模型,第一手实测后,效果不太好

4.3万

文章来源:AI先锋官

图片来源:由无界AI生成
图片来源:由无界AI生成

就在刚刚,智谱宣布开源两款图片生成模型:

CogView3 

CogView3-Plus-3B

据说能力非凡,它们俩兄弟在多项第三方测试中表现出色,甚至在某些测试中超越了Midjourney-V6、Flux-dev模型。

什么时候国产文生图模型这么强了?

那这不得好好盘一盘这两兄弟。

CogView3

CogView3 是第一个在文本到图像生成领域实现中继扩散的模型,它首先通过创建低分辨率图像,然后再基于中继的超分辨率来执行任务。

具体来讲就是:

首先通过标准扩散过程生成512x512低分辨率图像后,然后利用中继扩散过程先将其放大至1024x1024,随后再进一步迭代至2048x2048的高分辨率图像。

在人工评估中,CogView3 的性能比当前开源文本到图像扩散模型 SDXL要高出 77.0%。同时仅使用了 SDXL 推理时间的 1/10

CogView3-Plus

CogView-3-Plus在 CogView3 的基础上进行了改进,引入了最新的 DiT 框架,从而提高了整体的性能。

它使用了 Zero-SNR 扩散噪声调度,并增加了文本和图像联合注意力机制。与常规的 MMDiT 结构相比,这样做能在保持模型性能的同时,减少训练和推理的成本。

根据官方发布的测评结果:CogView-3-Plus在MPS、Image Reward等测评中的成绩比Midjourney-V6和Flux-dev还要高。

官方放出的效果对比图:

是不是觉得效果还不错。

目前CogView3-Plus已经上线到智谱清言app中。

随后小编立马做了实测。

先说结论:貌似翻车了。

首先,来个简单的提示词:一个美丽的中国姑娘站在海边,索尼镜头,正面照,全身照,写实。

生成的效果是这样的:

生成的效果整体而言,AI感满满,效果不用对比就知道不如Mijourney和Flux-dev模型。

随后小编又重新生成了很多张,效果和第一张一样,不太行。

既然短提示词效果不太行,那么我们试一下较长提示词。

提示词:在客厅里,20岁左右的女孩,单纯,极致漂亮细腻的,(淡妆),棕色头发,甜美的笑容,细腻漂亮白皙的皮肤,精致完整的五官,脸部刻画详细,高鼻梁,红色嘴唇,漂亮温柔美少女,飘柔顺滑发丝,极致细腻的头发,柔美的气质,脸部补光,超现实,写实,8K画质,极端细节,大师作品,身材绝美,绝世佳人,最高画质,8k分辨率,女神,微笑,精细五官,头发过肩,棕发,大长细腿,面对镜头,身材匀称紧实,温柔的眼神,站立姿势,全身照

效果和大家所看到的那样,还是不太行!

忍不住想要问一问,这官方给出的测评结果也忒不准了吧

看到测评结果,本来觉得国产的生图模型要熬出来了,想不到。。。


本文链接:https://www.aixinzhijie.com/article/6846970
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇