Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

admin2年前生活百科8
󦘖

微信号

KTV115116

添加微信

  Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  来源:量子位 

  Stability AI推出全新开源模型DeepFloyd IF,不光图像质量是照片级的,还解决了文生图的两大难题。

  开源AI绘画扛把子,Stable Diffusion背后公司Stability AI再放大招!

  全新开源模型DeepFloyd IF,一下获星2千+并登上GitHub热门榜。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  DeepFloyd IF不光图像质量是照片级的,还解决了文生图的两大难题:

  准确绘制文字。(霓虹灯招牌上写着xxx)

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  以及准确理解空间关系。(一只猫照镜子看见狮子的倒影)

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  网友表示,这可是个大事,之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  使用DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。

  霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  还在视频特效上开辟了新方向。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  目前DeepFloyd IF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  有需求的小伙伴可以抓紧反馈起来了。

  DeepFloyd IF仍然基于扩散模型,但与之前的Stable Diffusion相比有两大不同。

  负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

  负责生成图像的部分从潜扩散模型换成了像素级扩散模型。

  也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  官方还提供了一组DeepFloyd IF与其他AI绘画模型的直观对比。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  可以看出,使用T5做文本理解的谷歌Parti和英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。

  不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloyd IF就成了更实际的选择。

  具体生成图像上DeepFloyd IF与之前模型一致,语言模型理解文本后先生成64x64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  在这种架构上,通过把指定图像缩小回64x64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  并且不需要对模型做微调就可直接实现。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  另外,DeepFloyd IF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的。

  在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA(FID越低代表图像质量越高、多样性越好)。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  谁是DeepFloyd

  DeepFloyd AI Research是Stability AI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  主要成员只有4人,从姓氏来看均为东欧背景。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  这次除了开源代码外,团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。

  我们也试了试,很可惜的是目前对中文还不太支持。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  One More Thing

  DeepFloyd IF并不是Stability AI昨晚在开源上的唯一动作

  语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  目前代码和模型权重已开放下载。

  完整的桌面和移动界面也即将发布。

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

  作者:关注前沿科技,来源:量子位,原文标题:《Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成》。

相关文章

飞速创新一项目募资合理性存疑,与供应商数据“打架”

飞速创新一项目募资合理性存疑,与供应商数据“打架”

  来源:壹财信   2024年9月24日,武汉飞速召开产业园项目竣工环境保护验收现场会,验收项目投资50,260.06万元。若产业园项目获批后马上开工,至竣工验收时,建设期至多为14个月,与招股...

珠城科技缩量三连阳,持有1日上涨概率较大,看回测数据!

珠城科技缩量三连阳,持有1日上涨概率较大,看回测数据!

数据显示,珠城科技连续3天K线收阳,“三连阳”形态出现,意味着后势看涨的情况居多。点击咨询珠城科技如何操作 “策略之王”发现,珠城科技三连阳同时成交量缩小,表示空头不支,多头乘势追击,以最小的代价取得...

天风证券:易鑫集团经调整净利润超预期 内生动能充足延续高速增长

天风证券:易鑫集团经调整净利润超预期 内生动能充足延续高速增长

  天风证券发布研究报告称,预计随着新能源车向低线城市加速普及,易鑫集团(02858)多年来深耕低线市场并拥有广泛客户资源和渠道网可为其提供内生增长动力;此外随着新能源车企定制金融服务需求的增加,金...

中金:维持安能物流“跑赢行业”评级 目标价7.5港元

中金:维持安能物流“跑赢行业”评级 目标价7.5港元

  中金发布研究报告称,考虑未来行业需求仍存不确定性,维持安能物流(09956)“跑赢行业”评级,目标价7.5港元。由于公司降本成效超预期,为后续加盟商生态进一步优化提供空间,该行上调2024/24...

新年首场国务院常务会议聚焦银发经济 释放了哪些信号?

  2024年第一场国务院常务会议聚焦银发经济,提出运用好市场机制,充分发挥各类经营主体和社会组织作用,更好满足老年人多层次多样化需求,共同促进银发经济发展壮大。   业内分析,这是落实中央经济工作会...

2024年归母净利润下降124.13% 汉鑫科技收年报问询函

2024年归母净利润下降124.13% 汉鑫科技收年报问询函

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   每经记者 陈浩    每经编辑 陈俊杰       5月5日,汉鑫科技(BJ837092,股价16.39元,市值8亿...

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!