这个组织研究的内容,是做AI。。
作为近年来在AI人工智能领域上,备受关注的领跑者之一,这个名为OpenAI的组织,开发出了各种各样的人工智能模型。
像是机哥之前给大家介绍过的,GPT-3自然语言处理模型,就能够完成自动写稿、自动生成网页代码等功能。
而这一次,开发人员在这个模型的基础上,带来了全新的功能——自动生成图片

根据描述,这个名为DALL·E的模型,能够通过文字创建相应的图片。
接下来划重点。包括现实当中不存在的东西,也可以用图片的形式制造出来。
即便这个要求非常荒谬……

举个例子。当机哥选择“一条留着胡须的小鲨鱼在骑摩托车的插画”时,这个模型就能按照要求,创建出一系列符合要求的图片。
别说,还真的像模像样。

除此之外,这个模型DALL·E还能创建出非常逼真的实物图片。
例如“一张皮卡丘沙发”。虽然看起来不像是阳间的东西,但是从照片的质量上来看,不细看很难发现其中的端倪。

按照这个逻辑来说的话,机哥知道很多人,已经开始思考如何最大限度地,发挥这个DALL·E模型的作用了。
没错,如果这个DALL·E模型继续这样发展下去的话,所有能够通过语言表达出来的场景,基本上都能够制作成图片。
例如两个毫不相干的人,就可以通过这个模型,生成各种一起相处的图片。各种各样的场景,各种各样的 姿势 动作,DALL·E都能满足。

从技术层面来讲 ,这的确是可行的。因为DALL·E以1280个字符串,将每一张图片进行自动回归建模。
其中,图片的描述文本为256个字符串,图像内容为1024个字符串。
而每张图片里的64个自注意力层(self-attention layers),都有各自的注意力遮罩,将两种字符串联系起来。

在需要生成图片时,DALL·E就会将输入的文本进行解码,转换为相应的字符串。这时候通过字符串,在模型里选择相应的图像内容进行合成,就能得到最终想要的效果。

听不懂没关系。简单来说,只要通过大量的学习,就没有DALL·E无法生成的图片。

但是嚯,研究团队已经说明,这个模型的工作可能会产生重大而广泛的社会影响。
将来,研究团队计划通过提升DALL·E的能力,来应对类似的道德挑战。不过除了大家想的那些功能之外,研究人员还展示了一些DALL·E的实用功能。
例如提取不同物体的纹理和属性,在三维实体当中显示出来。
像是“电路板做成的立方体”,正常情况下谁会整这玩意……而DALL·E就能轻松生成。
除此之外,DALL·E还可以生成各种摄影大片。例如选择“美洲狮坐在山上的高角度视图”时,就能得到各种比肩专业摄影作品的图片。

甚至可以单靠画面的部分细节,就让DALL·E把整幅画面全部补齐。
例如下面这个石膏雕像的顶部,就合成了数十种结果。
不仅如此,DALL·E还支持用户凭空生成一家店铺。并且还能把这个店铺的名称,做成多种风格。

还有甚至还有同名的可乐,也能凭空制造出来。
另外,DALL·E甚至还可以客串设计师的工作。只要输入特定的服饰关键词,它就能呈现出各种各样的设计。
机哥选择了“穿着高领毛衣的女模特”,然后就得到了下面这么多的款式。
当然啦,并不是任何情况下都能得到完美的图片。
例如研究人员利用DALL·E,来组合各种不同动物,创造动画片里的神奇动物形象时,效果就非常魔幻。
像是“狮子和龟的结合体”……
还有“皮卡丘和龙虾的结合体”……虽然看起来DALL·E按照要求完成了图片,但效果看起来非常荒谬扯淡。

大家伙看看,这真的是认真的吗?
这个DALL·E还能根据不同的地域,生成具有其特色的图片。
例如“中国食物”。生成出来的图片,每一张都很像是大家平常会吃到的,但就是完全不认识的食物。

还有“中国的街道”。每一张像极了平时会路过的建筑,的确有点厉害。
不过细看之下,还是有很多拼凑的痕迹。

除此之外,DALL·E还有一个功能,在座的各位机友肯定都很感兴趣。
研究人员试图利用它,总结过往科技发展的规律,并且预测并生成未来科技产品的样子。
例如手机。根据过去几十年里的设计趋势,DALL·E帮机哥生成了100多年间,从老式电话机到智能手机的图片。
就连未来手机的样子,DALL·E都已经按照趋势预测好。


同样的,还有电脑。
到了电视的发展历程,DALL·E所呈现的图片明显就有点不用心。
未来的电视,居然倒回到上个世纪的设计……
同样的,还有相机。零部件越来越少,在DALL·E的预测里,基本上就只剩下一个摄像头和一块显示屏幕。

就这么看下来,目前的DALL·E的确可以生成各种逼真的图片。
但是在内行人眼里,这些图片距离以假乱真,还是有那么一点距离。不过嚯,机哥必须说,这只是这个模型的初代版本。
如果未来能够得到重点的开发,并且广泛应用到各个领域上的话,那么肯定能达到更好的效果。
对此机哥只希望,各位研究人员能够搞快点。在座的很多机友,想用它合成一下未来的对象到底是什么样子。

