文生图相关模型最新进展小结

# deep learning # generative AI

在较早的VAE和GAN时代,通过图形生成模型,可能出现模式坍塌(个人理解就是生成图像多样性不足)并且只有图像数据参与,在之后的diffusion时代(包括现在),有了多模态的加入,通过文本、深度图以及骨骼图(e.g.ControlNet)控制图像生成有了更高的自由度和创造性.此外有了类似LoRA,IP-Adapter等等技术提供了更好的微调方式用于在更新模型权重保持良好的风格迁移(比如原本模型训练集中没有的人物,在微调时增加新人物训练能有良好表现)或人物一致性(不同的角色不至于长得一样)

而在最近有了更多在一些较大模型(stable diffusionv3,novelai,sdxl等)上微调的模型,它们更加专注于某种画风。此外本文尝试总结目前文生图、艺术图片等生成式AI应用,最后从图片展望生成式视频创作。相对于论文、原理，这里更注重模型与应用。

之前我介绍过生成式模型与相关技术,这里不作过多介绍。

模型与技术的进展

首先,我们需要一个较大的模型,这个模型在较大的数据集上经过充分训练,已经有了相应的”知识”.作为普通用户一般不去训练这样的模型,直接下载即可Models - Hugging Face. 这类模型的技术从较早的VAE,flow-based,GAN到目前处于统治地位的diffusion. 可以说目前依然是diffusion的天下,基于diffusion的常用模型包括stability(或者说compvis,stability公司争议很大)下的stable diffusion,目前到了SDXL和v3.5,NovelAI - The AI Storyteller下的NovelAI Diffusion Anime V3(之前泄露过novelai早期模型),但novelai本身并没有开源模型,此外还有midjourney等,但这些大都需要付费而且定制化不高大概率也不能NSFW.

所以,从目前看来开源的底模(也就是上面所说的diffusion较大的模型)看起来只有stability下的对用户友好了,因为开源,社区也很给力,有了很多相关工具.

目前来看Models - Hugging Face,Civitai: The Home of Open-Source Generative AI以及Stable Diffusion Rentries + Simple Installation Tutorial!是较好的模型下载和学习资源.

此外也有Reddit社区,x上的相关社区以及一些相关discord作为被动看看新闻和高手们在干什么.

在两三年前,用的比较多的是stable diffusionv1.5(目前被runway删了,但网上还是有很多备份),后来有了sdxl,sdv3以及现在的sdv3.5

而目前最新的就是3.5版本和sdxl,往往我们都需要这些底模. 至于这些底模有什么大差别,我认为主要还是在数据集和模型参数量上,当然如果模型太大,本地可能也不好运行.所以还是量力而行.

在这些底模基础上,通过微调技术,衍生出了一大堆社区的模型.最早的微调模型基本都是基于sd1.5或早期泄露的nai

可以看到还是专注生成人物的居多

这里挑选几个目前最火的,大多基于SDXL,除了Flux之外都是社区基于Stable diffusion的开源模型.

Animagine3

cagliostrolab/animagine-xl-3.0 · Hugging Face

基于SDXL

Pony

Pony Diffusion V6 XL - V6 (start with this one) | Stable Diffusion Checkpoint | Civitai

AutismMix SDXL - AutismMix_pony | Stable Diffusion Checkpoint | Civitai

Flux

black-forest-labs/flux: Official inference repo for FLUX.1 models

Stability出走人员新开的公司Black Forest Lab下的开源模型FLUX.1 - BlackForestLabs

illustrious

Illustrious-XL - v0.1 | Illustrious Checkpoint | Civitai

Noob

NoobAI-XL (NAI-XL) - Epsilon-pred 1.0-Version | Stable Diffusion XL Checkpoint | Civitai

一些评价了解下大家都在用什么版本-百度贴吧

对于普通爱好者
sd1.5仅有的用处是controlnet的inpaint扩图换衣，缺点是手脚画不好
pony是sdxl早期的威力加强版，主打涩图，社区分享r18/r18g最广泛，最优模型是tponynai3/wai等
sdxl近一个月推出illustrious力争无限接近nai3，比pony省略角色lora姿势lora画风lora可以单tag直接呼出省略调权步骤色彩污染等，最优模型是tillu3/wai/noobai等
flux是画三次元专精，因为模型是拿三维深度图训练的，缺点是显存占用极高

可以常逛civita看看那些些不错的图片使用的什么模型.

本地使用工具的进展

目前经常看见的几个本地使用UI工具.

Automatic1111 WebUI: (Install Guide|Features Guide) - Most feature-packed browser interface.✨✨✨✨✨
lllyasviel/Fooocus: Focus on prompting and generating
lllyasviel/stable-diffusion-webui-forge✨✨✨✨
ComfyUI: (Installation) - API and back-end with a graph/nodes interface.✨✨✨✨
SwarmUI: (Installation) - Super easy to install but still powerful UI, wraps and extends ComfyUI.

此外还有invoke-ai/InvokeAI

LoRA训练

LoRA本身是一种微调方式,技术上修改了模型权重更新的方式,使得迁移更好. 可以下载一些脚本方便训练

现有应用

目前文生图的应用虽然多,但是在商业上其实挺失败的(这也许收到了开源的影响),况且如果只是图片,也许还不够,如果结合视频、音频,那么对于辅助内容创作,面向目前广大视频博主还是很不错的.

如果只谈文生图或者图生图应用,目前大致有三种方向,第一种通过AI生成图片节省成本甚至通过AI噱头赚取更多关注度.具体来说,类似上面视频博主方案,只不过是图文博主,发短文搭配图片,发文章搭配图片,我也看见了有些学术会议的介绍图也使用了AI生成图. 这种方法商业上也是通过快速拿到还不错的搭配的图片吸引用户引流. 还有一些卖家,比如卖衣服的,不花请模特的钱,直接通过AI生成而且目前也能做到一个人物只换衣服面貌身材类似,相当于有了一个看起来很真实的人物的多种换衣图. 此外一些游戏开发者生成AI像素图,三视图等快速获得了游戏素材,比如之前的幻兽帕鲁. 上面这些方式都是通过AI辅助原本就有相关技能并以此赚钱的. 第二种更偏向兴趣,比如Anifusion - AI Manga Generator使用了画风更偏向漫画的模型搭配画图工作流,让画漫画更方便,但是专业的漫画家可能就不会去用了.

关于目前一些有趣的开源应用AnimateDiff.将文生图模型直接转为生成动画的模型而不需要额外训练,ToonCrafter通过两张图插值生成动画等等都是目前非常有趣的产品.

总的来说,目前商业应用前景依然不明朗,但是在一些小赛道还是不错的,其实不止AI图片,乃至AI相关的比如LLM也仍然面临这类问题.

从图片到视频的展望

有了图片还是不够,如果有连续的、能体现更多故事的图片更好,那就是视频了. stability公司早已发布了Stable Video模型,runway也有了Runway Research | Gen-2: Generate novel videos with text, images or video clips,OpenAI的Sora也是上了国内的大众热搜,鬼畜视频常客HeyGen - AI Video Generator和Genmo | Open Video Generation. 但是目前仍然存在一些问题,一个是许多只允许用于调用而且还收费,通常免费生成的视频也就按秒算,由于视频生成难度更高,训练要求更高,相关开源社区发展不够. 另外目前技术也有进步空间,连贯性和人物一致性还需要进步,往往也缺少一些基本逻辑. 比如人物多手多腿,突然窜出一个莫名其妙的生物,脸部变形等等.

当然,到最后依然可能面临着商业化的问题. 但是考虑到目前互联网上有许多视频博主,他们应该是一个好的目标对象,结合AI生成的文字、音频、图片以及视频开发一个内容创作平台看起来还是有前景的.

Sekyoro的博客小屋