什么?这些不是真人照片,都是AI画出来的?!



最近这样一组美女图片刷屏了,许多人看到第一反应都是“AI逼真到这个份上了?”。



直到看到手部露出了破绽,才敢确定确实是AI画的。



原来在ChatGPT的光芒掩盖一切的这段时间,图像生成AI已经从从画画悄悄进化到了“画照片”。

这种风格和质量的AI照片,还有很多在各大网络社区流传,国内贴吧、微博、NGA,国外推特、油管,到处都是。



有网友表示:AI聊天+AI照片,快进到AI网恋诈骗。

而Cosplay风格的AI照片也让一些人感叹“商业Coser和摄影师可能双双下岗”。



根据各帖子发布者透露,这些AI照片都出自同一个模型,Chilloutmix。





多个模型融合进化,照片级AI诞生

ChilloutMix,二月初出现在模型分享社区CivitAI(不少爱好者称之为c站)。

不到两周时间,下载数量超过5万。



简单来说,这个模型还是基于大家熟悉的Stable Diffusion,1.5版本,但是由许多衍生模型合并(Merge)而来。

主要组件包括两大模型,首先是Basilmix,专攻逼真的纹理和亚洲脸型。



但这个模型主要还是擅长半写实的“2.5D风格”。



接下来合并了用照片集数据优化的Dreamlike的衍生模型,让最终生成结果更接近3D写实风格。



除了两个主要模型之外,作者还添加了一些小的Embeddings(相当于给AI模型打补丁)。



比如第一个Pure Eros Face,提供的.pt文件只有3.92KB,可以合并到任何基于SD1.5的模型,专门负责生成“纯欲系面孔”。



所有这些模型和Embeddings,各自擅长不同的地方,如一种画风、一种纹理、人物脸型甚至姿势。

Merge在一起后,可通过不同提示词调用它们的能力,一般原作者都会附上使用指南。



如果还是不太会用,CivitAI社区里还会有很多网友晒使用相应模型生成的作品,其中还有很多标记了“NSFW”或“18+”,懂得都懂。



除了ChilloutMix之外,文章开头的那组图片之所以能固定生成同一张面孔,还使用了另一项技术LoRA。

LoRA本来是微软研究团队早在2021年提出的一项大语言模型微调的技术,可以大大提高微调训练速度。

去年底,韩国科学技术院KAIST一位研究员@cloneofsimo与HuggingFace合作,将此方法扩展到Stable Diffusion上。

不仅实现了单块11GB显存的RTX2080Ti实现模型完整微调,同时原始模型权重冻结,新训练出来的权重可以保存为3MB大小的单个文件发布。

这项技术被AI绘画爱好者用来让模型固定生成一个物体,最流行的就是固定一个人物形象。

现在,在CivitAI社区里,每个微调好的权重就叫做一个Lora,就相当于一个人物模版,所有人都可以方便下载使用。

如开头的那组图片就是来自叫“Korean Doll Likeness”的Lora,目前下载量排名第一。



对于ChilloutMix+LoRA这样的技术,作者也意识到了可能被滥用的风险,并着重提示了法律风险,特别强调不要用于真实存在的人物。



为什么AI还是不会画手?

对于这个问题,最近也有了研究进展。

Stability AI 发言人表示,在AI数据集中,手的图像不够显著,“在源图像中,手(比面部部分等)要小得多。”

佛罗里达大学AI和艺术副教授Amelia Winger-Bearskin解释说,AI基于从互联网上收集的数十亿张图像进行训练,它并不能真正理解“手”是什么,至少不理解解剖学意义上手和人体的关联。



在用来训练生成AI的图像中,手通常会抓住一些东西,或者另一只手。如此一来,手指的情况就不容易辨清。

如果所有的训练图像中,手都是五指张开,AI就能够画出正常的手。