

作为近年来在AI人工智能领域上,备受关注的领跑者之一,这个名为OpenAI的组织,开发出了各种各样的人工智能模型。
像是机哥之前给大家介绍过的,GPT-3自然语言处理模型,就能够完成自动写稿、自动生成网页代码等功能。

自动生成图片

根据描述,这个名为DALL·E的模型,能够通过文字创建相应的图片。

包括现实当中不存在的东西,也可以用图片的形式制造出来。
即便这个要求非常荒谬……


当机哥选择“一条留着胡须的小鲨鱼在骑摩托车的插画”时,这个模型就能按照要求,创建出一系列符合要求的图片。
别说,还真的像模像样。

除此之外,这个模型DALL·E还能创建出非常逼真的实物图片。

虽然看起来不像是阳间的东西,但是从照片的质量上来看,不细看很难发现其中的端倪。



没错,如果这个DALL·E模型继续这样发展下去的话,所有能够通过语言表达出来的场景,基本上都能够制作成图片。

各种各样的场景,各种各样的 姿势 动作,DALL·E都能满足。


因为DALL·E以1280个字符串,将每一张图片进行自动回归建模。
其中,图片的描述文本为256个字符串,图像内容为1024个字符串。
而每张图片里的64个自注意力层(self-attention layers),都有各自的注意力遮罩,将两种字符串联系起来。


这时候通过字符串,在模型里选择相应的图像内容进行合成,就能得到最终想要的效果。


简单来说,只要通过大量的学习,就没有DALL·E无法生成的图片。

但是嚯,研究团队已经说明,这个模型的工作可能会产生重大而广泛的社会影响。

不过除了大家想的那些功能之外,研究人员还展示了一些DALL·E的实用功能。
例如提取不同物体的纹理和属性,在三维实体当中显示出来。



例如选择“美洲狮坐在山上的高角度视图”时,就能得到各种比肩专业摄影作品的图片。

甚至可以单靠画面的部分细节,就让DALL·E把整幅画面全部补齐。



并且还能把这个店铺的名称,做成多种风格。



另外,DALL·E甚至还可以客串设计师的工作。只要输入特定的服饰关键词,它就能呈现出各种各样的设计。


当然啦,并不是任何情况下都能得到完美的图片。
例如研究人员利用DALL·E,来组合各种不同动物,创造动画片里的神奇动物形象时,效果就非常魔幻。



虽然看起来DALL·E按照要求完成了图片,但效果看起来非常荒谬扯淡。



这个DALL·E还能根据不同的地域,生成具有其特色的图片。

生成出来的图片,每一张都很像是大家平常会吃到的,但就是完全不认识的食物。


每一张像极了平时会路过的建筑,的确有点厉害。
不过细看之下,还是有很多拼凑的痕迹。

除此之外,DALL·E还有一个功能,在座的各位机友肯定都很感兴趣。
研究人员试图利用它,总结过往科技发展的规律,并且预测并生成未来科技产品的样子。

根据过去几十年里的设计趋势,DALL·E帮机哥生成了100多年间,从老式电话机到智能手机的图片。
就连未来手机的样子,DALL·E都已经按照趋势预测好。




到了电视的发展历程,DALL·E所呈现的图片明显就有点不用心。



零部件越来越少,在DALL·E的预测里,基本上就只剩下一个摄像头和一块显示屏幕。

就这么看下来,目前的DALL·E的确可以生成各种逼真的图片。

不过嚯,机哥必须说,这只是这个模型的初代版本。
如果未来能够得到重点的开发,并且广泛应用到各个领域上的话,那么肯定能达到更好的效果。

在座的很多机友,想用它合成一下未来的对象到底是什么样子。