本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏、梦晨,原文标题:《原画师惊呆:这个爆火AI真把梦境画成现实了!下载APP人人可用》,题图来自:Dream by Wombo


没想到,平常都是我拿着最新AI的Demo到处去安利。


这回竟然被美术圈的朋友安利了一个AI绘画APP


话不多说先看效果:



这摩登又玄幻的画面,一上来就冲击到我了。


抽象的线条兼具了美感和想象力,同时还传递出未来城市的感觉。


要不是被剧透,我还真不一定能立刻猜出来这是出自AI之手。


而且除了能对照片进行二改,这个AI还能根据文字命题、凭自己想象作画。


比如输入落日飞车四个字,在AI的“想象”中会是这样:



另外还可以画出不同画风,目前已支持20种。


还真是能满足你提出的所有需求,怪不得能征服美术设计圈(doge)



AI画完后,甚至可以一键保存成手机壁纸。


过去几天,这款APP还在Apple Store图形和设计区霸榜多日(安卓版本也有)



要知道,过去美术圈、艺术圈可是有不少人吐槽AI生成的内容没得灵魂……


结果现在纷纷在社交平台上po自己的作品,还有设计区大V要专门聊聊这个事儿。


但更让我震惊的是,这个APP背后公司的故事。


公司创始人现在只有25岁,为了创业,他直接从多伦多大学退学。


公司首次推出的APP(WOMBO.AI),能让照片对口型唱歌



‍‍没错,就是那个此前在抖音上爆火、席卷全球互联网的魔性特效。


凭借着这款APP,这家公司估值直冲4000万美元(折合人民币约2.5亿)


而他们最初的启动资金,只有6万美元。


这不禁让人好奇,到底是怎样的一伙人,能凭借AI一次又一次做出全球爆火的APP?


25岁辍学创业,公司估值4000万美元


先从小哥的公司Wombo创办说起。


Wombo是一家加拿大公司,创始人及CEO名叫Ben-Zion Benkhin,今年25岁。


(接下来我们暂时用“小本哥”来称呼他。)


图片来自:Wombo
图片来自:Wombo


小本哥本来是多伦多大学数学与哲学专业的一位学生。


在学校的时候,他组建过一个人工智能兴趣社团,自己对deepfake也十分感兴趣。


2020年8月的一个夏夜,小本哥和他的室友在公寓屋顶上吹风,突然灵光一现:


为什么没有人做一个APP,可以把一张普通的照片变成搞笑视频?


△Wombo效果<br label=图片备注 class=text-img-note>
△Wombo效果

在经过4个小时的讨论之后,Wombo的雏形轮廓逐渐清晰了起来。


小本哥对这个想法还真不是一时上头。


为此,他选择辍学完成创业。


同时还拉来了自己做管理顾问的朋友Paul Pavel一起“搞‍事”,并在多伦多大学招募了一些学生。


‍其中Angad Arneja放弃了全额奖学金,选择和小本哥一样辍学,现在他是Wombo的人力主管。


图片来自:Wombo
图片来自:Wombo


公司最初启动资金有6万美元,主要依靠各位创始人的父母慷慨解囊。


小本哥说这些钱主要用在了买电脑、招募开发人员和品牌推广上。


大约半年以后,2021年2月28日,Wombo就准备好发布了。


小本哥和其他公司创始人们把这个应用发给了大约10个人。


一周之内,Wombo的下载量就达到了50万次


第二周,这个数字跃升到了900万


由此,Wombo也引起了各方投资人的关注,顺利拿到了由Global Founders Capital和Sofreh Capital共同领投600万美元天使轮


现在估值达到了4000万美元。



值得一提的是,Wombo在爆火前,曾被200多家VC拒绝过。


所以这一波下来,真正赢麻了的是最初提供启动资金的家长们。


比如Paul Pavel的父母就是资助2万美元,最终换来了数十万美元的股票。


目前,Wombo旗下的两个APP下载量已经达到了8400万+,月活用户超过1000万。


Wombo上的创作量已经达到10亿,Dream by Wombo这一数据也达到了1.8亿。



由此带来的收入也非常可观,去年Wombo上线4个多月,依靠内部广告和免费歌曲库获得了数十万美元的收入。


Dream by Wombo支持用户购买自己用AI生成的作品。


20美元可定制一张海报,加边框的价格则从45美元起算。


这个AI是怎么画画的?


让AI根据文字作画,了解AI的朋友会知道这属于多模态生成


模态,指的是文本、图像、声音等不同的信息表现形式。


多模态,则是把不同类型的信息结合起来。


如果给每个图片标上文字描述组成一对,用大量这种图文对去训练AI,就能让它理解到图文之间的对应关系。


OpenAI开源的CLIP就是这个原理,Wombo工程师也曾在一次采访中透露过,他们的算法中就使用了CLIP。


CLIP使用了4亿组从网上收集的图文对做训练,可以理解颜色和形状,日常物品或建筑物,甚至抽象的艺术风格比如“印象派”或“赛博朋克”。


△CLIP训练数据示例<br label=图片备注 class=text-img-note>
△CLIP训练数据示例


接下来,还要解决图像生成的部分。


没错,又要请出GAN(生成对抗网络)了,而且这次GAN要接受CLIP的指挥。


整个流程是这样的:


首先生成一张平平无奇的随机图像当种子。



让CLIP给图像与文字描述的相似度打分,反馈给GAN,GAN以提升分数为目标不断迭代。


整个迭代过程可以在App中直观地看到。



其中的随机性意味着AI几乎不可能两次生成同样的图像。


如果第一次结果不满意,还可以点击按钮用相同配置再试一次。



至于Wombo的算法具体使用了哪种GAN,并未公开。


但在招聘信息里,高级机器学习工程师的岗位描述中写着,有DC-GAN经验的优先。



DC-GAN最早于2015年提出,是第一个使用深度卷积网络生成图像的GAN变体。


意味着Wombo的算法大概率是以此为基础改进而来。


Wombo选择卷积网络而不是Transformer的理由也不难猜。


要做成移动App给全球玩家使用,而且生成的是高分辨率图像,卷积在效率上要占优势。


CLIP+GAN结合成AI画家的方法并非Wombo首创。


CLIP于2021年1月发布,第二天网友@advadnoun就开始试验其与各种生成模型的组合。



最终他选择了BigGAN,将代码发布为Colab笔记The Big Sleep



早期The Big Sleep生成的画,怎么说呢,总是带点精神污染,分辨率也不高。


(建议不要去翻@advadnoun的早期分享,真的有毒)<br label=图片备注 class=text-img-note>
(建议不要去翻@advadnoun的早期分享,真的有毒)


后来西班牙玩家Katherine Crowson在此基础上发布了CLIP+VQGAN的版本。


VQGAN是CVPR 2021 Oral入选论文,将CNN的高效率和Transformer的高性能结合起来,生成的图像质量更高。



这一版Colab笔记真正流行了起来,不少人开始分享AI创作的画,还开发出各种技巧。


比如文字提示中加入虚幻引擎或者光线追踪,画质还能大幅提升。



围绕CLIP+VQGAN开始形成社区,代码不断有人做优化改进,还有了专门收集发布AI画作的账号。


而最早的先驱@advadnoun还顺利入职Adobe担任研究员。


但这一波AI作画浪潮的玩家主要还是技术爱好者。


毕竟在Colab上排队申请GPU、运行代码训练AI,时不时还要处理一下报错,门槛还是有点高了。


直到Dream by WOMBO的出现,改变了一切。


AI作画开始被认真对待


实际上,这几年已经浮现出不少让AI作画的技术工具。


最早是谷歌在2015年推出的DeepDream


后来,除了前面提到的以外,还有英伟达的GauGAN、OpenAI的DALL·E,开源的Disco Diffusion等。


凭借着独一无二还惊艳众人的特点,AI作画影响到的圈层也越来越广泛,比较典型的有美术圈、艺术收藏圈以及NFT领域。


首先来看美术圈,他们接触更多的是Disco Diffusion


这款AI用扩散模型代替了GAN,生成图像的质量更高,几乎达到了原画级。


尽管要在Colab上自己运行代码,门槛不低,但还是大受欢迎,甚至出现了专门收集提示词的共享文档。



知乎上最近也有一个与之相关的热门话题。


AI绘画会对美术行业产生什么样的影响呢?



在这个讨论中,大部分人都觉得,AI对当下美术圈的影响还比较有限。


但是未来呢?大家的观点不尽相同。


有人认为AI可以成为创作者的辅助工具;有人却觉得AI能直接取代画师。


知乎答主@画画的花噎菜认为,AI绘画依旧淘汰不了绘画行业。


往远了说,照相机没有淘汰写实油画;往近了说3D辅助也没有淘汰写实数绘。……如果你还是怕被抢了饭碗,那不妨让自己画得好一点。因为不论什么行业,高端的市场都是最难被淘汰的。


@鱼一般也觉得,AI将会是专业画师手中一个很好的工具,可以提供很多灵感,也可以当做底稿使用。


@Liuuzaki虽然也赞同AI在想象力上是长板,但他认为,AI有一天会取代与之工作方式相似的从业者。


AI并不擅长逻辑,只擅长美感。它是天生的艺术家,而不是工程师。


这种工作方式很像现在的一些美术工作者。


而如果再把目光延伸到艺术收藏圈来看,AI作画在这几年已经带来了一些肉眼可见的影响。


2018年,一幅由AI创作出的肖像画在纽约佳士得拍卖会上以43.2万美元成交。


这一价格也是该场拍卖会的最高成交价,甚至超过了同场拍卖的毕加索作品。


这幅画最大的噱头,便是用GAN作画所带来的的独一无二性。



One More Thing


最后,AI作画还影响到了同样在冲击艺术圈的NFT。


此前有人推出了一个平台Eponym。


它能够利用AI将文本转化为图画,然后再将这些作品直接铸造到最大的NFT市场OpenSea。


在这个平台上,每个文本只能生成一幅画作。


由它推出第一批NFT(3500个),在OpenSea上一夜售罄。


△Eponym生成的作品<br label=图片备注 class=text-img-note>
△Eponym生成的作品


关于AI作画将成为NFT领域的下一个趋势,也成为最近圈内热议的话题。


实际上,Wombo也有进军NFT领域的打算。


去年年底,有位网友在推特上向他们发问:


你们是否把用户生成的画作铸造成了NFT?


对此官方给出回应:目前还没有铸造,但是正在考虑这一计划!



这事儿,你怎么看呢?


AI绘图灵感共享库:

https://docs.qq.com/sheet/DWFR0VmpQa3ZtbXda

TheBigSleep:

https://colab.research.google.com/drive/1NCceX2mbiKOSlAd_o7IU7nA9UskKN5WR

CLIP+VQGAN:

https://ljvmiranda921.github.io/notebook/2021/08/11/vqgan-list/

Disco Diffusion:

https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb


参考链接:

[1]https://www.theglobeandmail.com/business/article-making-it-by-faking-it-how-torontos-wombo-became-canadas-fastest/

[2]https://www.8btc.com/article/6722724

[3]https://artthescience.com/magazine/2022/02/16/features-wombo-dream-and-ai-art-with-salman-shahid/

[4]https://weibo.com/u/5619550614?is_hot=1

[5]https://www.zhihu.com/question/528563685/answer/2447959396

[6]https://www.zhihu.com/question/528563685/answer/2445286621

[7]https://www.zhihu.com/question/528563685/answer/2445279372


本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏、梦晨