本文来自微信公众号:差评 (ID:chaping321),作者:小发,编辑:面线,题图:由Midjourney生成
“什么,这居然是 AI 画的!?”
这可能是我在过去一个月的互联网上看到过的最多的评论。
当我们对于当代 AI 绘画的印象还停留在仅仅只是画个人像时,AI 的“画技”却在不知不觉中在飞快提高着。
也就是这么几个月的时间,DALL·E 2、Stable Diffusion、Mid Journey 等 AI 绘画工具突然带领了一波爆发式的创作,带来了无数精美的艺术绘画作品,艺术界那叫一个热闹。
现在去网上随手用关键词一搜,你就能够找到大量 AI 绘制的精美图片,其中绝大部分用来当个手机壁纸、电脑桌面啥的绰绰有余。
这鲜明的风格、细腻的笔触、精心的构图,我要说是 AI 画的,你信吗?

你绝对没法想象,在一年多之前,这些 AI 绘画工具还指挥做一些类似“缝合”的活儿,画出来的东西也都抽象得很,没几个能看的。
就拿 DALL·E 来说,去年差评君曾经给各位介绍过它,你们看看那时候它画出来的都是啥玩意儿。

一年之后的 DALL·E 2 的作品则是这样的。

这画技的提升速度简直比莎翁笔下的某对年轻情侣感情升温还要快了好吗!
你看,AI 的可怕之处就在于这儿,每当你觉得 AI 江郎才尽的时候,它都能给你整出一些惊掉下巴的活。
既然这事儿最近那么火,不如今天我们就聊聊 AI 绘画吧。
很多人可能会觉得,AI 绘画是这两年才出现的新玩意儿,但是实际上它的历史比我们想象得都要久远得多。
在上世纪 60 年代,一个叫做哈罗德·科恩(Harold Cohen)的英国艺术家在伦敦艺术圈子里渐渐有了名声。
作为一名正统艺术教育培训出身的艺术家,按理说这对他来说已经是天胡开局了,接下去只要按部就班就可以功成名就走上人生巅峰。

结果他却开始把主要精力却都放在了学习写代码、开发电脑程序上。
不过,他学代码不是为了转行当程序员,而是想用计算机来帮自己进行艺术创作。
在几年的学习之后,科恩在 1973 年发布了一个叫 Aaron(亚伦)的程序,它就是最开始的计算机绘画程序。
这款程序可以模拟人手画出一些不规则的线条,在画完之后科恩会用染料手动为这些图片上色。

没错,在这个阶段,Aaron 的能力仅仅局限于此,甚至都不能指定它去画某一样东西,只有在科恩给它上色之后,才会成为完整的抽象画。
可以说,此时的 Aaron 只是个辅助而已,真正的大哥还是科恩本人。
即便只是这样,科恩这种突破性的创作方式还是在当年引起了很大的轰动,他的作品还被拿去进行了一波展览。

科恩并不满足于此,他想让 Aaron 可以独立创作出一副完整的作品。
要做到这一点,Aaron 就必须要“学会”画出指定的图案以及之后的上色等工作。
于是他又开始对 Aaron 的代码进行改进,这一改就是十年的时间,1980 年代,Aaron 学会了画岩石、植物、人等事物。

之后科恩还把 Aaron 的编程语言从 C 语言换成了 Lisp,用来解决颜色的问题,直到 2000 年初,总算是可以独立完成作品了。

Aaron 的艺术作品在当时得到了各行各业的认可,被很多博物馆收录展览,甚至被用来作图灵测试的艺术题目。

科恩本人也因为 Aaron 而获得了杰出艺术家奖数字艺术终身成就奖。

但看到这儿各位应该也发现了一个问题:这 Aaron 虽然能画画,但是进化速度很慢,动不动就要十年为单位才能进步一点。
而且它自身也没有任何的“创造力”,任何新的图案、画风,都需要科恩手动编码进行调校才能学会。
另外,2000 年之后,一些别的计算机绘画程序也开始逐步发展起来,比如 The Painting Fool,它的原理是模拟物理绘画的过程,看着真实的照片然后对区域内的色块进行提取,然后模拟铅笔、油漆之类的材料进行创作。
它比较有突破性的一点是学会了识别情绪,可以根据情绪变化来绘制肖像。

之后还有了 3D 建模能力。

但是它们有一个共同的特点就是局限性很大,大多都是人像,就这样这些人像还需要后期加工才能比较像真人。
最关键的是,它们没有自己的意识,并不知道自己画的是什么东西。
因此那时候,艺术家们并不认为计算机能够威胁到自己的地位,毕竟在“创意”这事情上,还得是人类说了算。
可他们没想到,随着 AI 技术的不断发展,一场全新的变革在不久之后就到来了。
2014 年,Ian Goodfellow 提出了一个叫做生成对抗网络(GANs,Generative Adversarial Networks)的东西,迅速成为了 AI 行业的研究热点。
简单点说,GANs 的原理就是“左右互搏”。
首先我们有两个东西,G(Generator,生成器)和 D(Discriminator,识别器), G 的功能是随机生成一张图片, D 则是来判断这张图片是不是真实的(是人还是由 G 生成的),让两边一直不停的打架。
G 的目标就是尽量生成以假乱真的图片把 D 忽悠过去, D 的目标则是尽量识别 G 的图片与真实图片的区别。

最后,我们就能得到一个可以生成更接近“真实”图片的 G。
GANs 的出现让计算机绘画有了一个巨大的飞跃,因为在这种情况下,经过大量训练的 AI 完全知道自己应该去“画”什么。
比如你可以让它画一个动漫人物头像,它就会给你一个动漫人物头像,而不会给你一个猩猩头像、或者一张小李子玩水枪的图。

与之前的绘画程序相比,这种认知上的差距就好像是一个懵懂的婴儿与成年人一样巨大。
但是在这个时候,AI 还是没有“创造力”可言的,它只是根据自己“记忆中”的东西去生成差不多的图片而已,说白了就是模仿,没有特定的风格。
2017 年,基于 GAN 的理论,罗格斯大学发表了 CANs(创造性对抗网络)的概念,首次让 AI 产生了创造力。
CANs 的基本原理和 GANs 差不多,但是在训练过程 CANs 还会学习将图片分为 25 种艺术风格( 抽象、写实等等 )。
这样一来,当你使用 CANs 时,还可以给定具体的风格,之后就可以看到 AI 的“创造力”。

至此,AI 有了识别能力,有了创造力,GANs 训练模型在之后的几年里“垄断”了 AI 界,出尽风头。
可是正如同之前说的 DALL·E 一样,它们是有一些缺陷的。
原因是 GANs 和 CANs 的训练过程是 G 和 D 两者的抗争,相当于是个黑盒子,我们也无法针对性地让它们训练各种绘画的细节,只能有个大概的方向。
所以我们之前看到的那些 AI 图片总会觉得它们有些粗糙。
然后在 2021 年 5 月份,OpenAI 的工作人员提出了一个叫扩散模型(Diffusion Models)的系统,它也是在短短一年多里让 AI 绘画技术飞速提升的关键所在。
扩散模型的原理可以粗略地理解为:连续不断地添加高斯噪点把一张图片给“打码”,然后反转这过程,学习如何恢复图片,也就是“去马赛克”。

这个过程其实是相当于从像素层面去“画”出原来的图片,什么地方画猫眼睛、猫的毛色应该是什么样的都一清二楚,自然就可以让 AI 生成的图片拥有大量的细节。
经过无数次的训练之后,扩散模型就拥有了可以把随机给出的一堆噪点变成一张图片的能力。
扩散模型一出现就被证明了有远超 GANs 的训练效果,而且扩散模型的训练过程不需要对抗,还可以添加各种规则和约束来针对性地训练。
于是乎,我们开头看到的那些能生成精美图片的 AI 就这样出现了。
如今,AI 绘画的能力以及应用领域已经远超我们的想象,它甚至还在以飞快的速度在不断进化,仿佛已经来到了技术奇点。
比如我最近也试了试用 Mid Journey 进行了一波“创作”。
哪怕我输入的只是阿拉伯数字 “ 4 ” ,它也可以给我生成一组图片,只不过有点意义不明。

甚至于我还可以选择 “ Upscale ” 让它画出这些图片更细节的东西。

而当我尝试用一些比较精准的语句去形容我想要的画面时,它给出的结果也是完全对应了我输入的描述。

当然,我的这些作品纯属是练手而已,专业人士们早就把它们用在自己相应的领域中了。
有些游戏制作者已经在尝试完全用 AI 生成的素材做游戏。

有位艺术家则用 AI 创作了 40 多页拥有连续剧情的漫画,仅仅只花了一个小时。

甚至于,今年戛纳电影短片节最佳短片《THE CROW》都是 AI 绘制的。

由此可见,很大一部分的艺术创作者对于 AI 绘画是持有包容态度的。
但是,也有人在感叹再这么发展下去 AI 可能会让许多艺术家失业了,并表达了前所未有的忧虑。

也有人反感 AI 绘画,如同当年杜尚说出“绘画已死”时一样,高呼着“艺术已死”。

其实我觉得这取决于我们如何去看待“艺术”。
就拿我的作品来说,那肯定算不上艺术对吧,我只是随便输入了几个句子,让系统生成了一张图片而已。
那些大佬们则是会通过不断地调试参数和条件,让 AI 绘画达到自己想要的效果,甚至进行后期调色、细节打磨,这个过程本身难道不也是一种艺术创作吗?

更何况,哪怕是现在基于扩散模型的各种绘画 AI ,它们依旧是有缺陷存在的。
比如下面这张温斯顿,在我们普通人看来会觉得“哇,好华丽,细节好多”。

可是在真正的大佬眼里,这身盔甲的设计就很愚蠢。
究其原因,是现在的 AI 绘画还是“知其然,而不知其所以然”的状态。
诚然,它知道温斯顿是谁,却不知道温斯顿为什么要穿盔甲,更不知道盔甲该如何设计才合理,它只是按照要求画了张图而已。
更不用说一些抽象的概念,比如输入“鲑鱼洄游”,有些 AI 生成的结果非常令人迷惑,因为 Salmon 在更多的情况下都是用在三文鱼片这个场景……

很多创作者都认为,AI 可以把画功、笔触、透视等人类需要刻苦练习的东西在很短的时间之内学会,这其实是一件好事。
毕竟 AI 绘画不可能理解一个甲方给出的所有需求与修改意见,但是一个专业的艺术家可以。
但是 AI 作画确实可以在构图、色彩选择等方面给艺术家提供灵感。
这就可以让艺术家们脱离那些机械、重复的劳动,把更多的精力集中在创意内容上。
艺术家们留下的艺术品,是他们所处的时代以及自身独特思想激烈碰撞之后的产物。
AI 绘画说到底也只是一个工具而已,它的出现,能更好的帮助艺术家们记载这整个时代,而不会将那些真正的艺术家取代。
资料来源:
微博 @soulframe
微博 @LeoLiArt
Youtube,The Painting Fool by Simon Colton
维基百科,Aaron
知乎,GAN 学习指南:从原理入门到制作生成 Demo
知乎,Diffusion Models :生成扩散模型
知乎,AI 画拍出 300 万高价?一篇文章带你读懂 AI 艺术史
TNYT,Harold Cohen , a Pioneer of Computer-Generated Art , Dies at 87
代码交流,创造性对抗网络( CAN )是什么?
Mid Journey
AI 科技评论,打破 GANs “ 垄断 ” | OpenAI 新研究:Diffusion Models 图文转换效果超越 DALL-E
本文来自微信公众号:差评 (ID:chaping321),作者:小发,编辑:面线