作为近年来在AI人工智能领域上,备受关注的领跑者之一,这个名为OpenAI的组织,开发出了各种各样的人工智能模型。
像是机哥之前给大家介绍过的,GPT-3自然语言处理模型,就能够完成自动写稿、自动生成网页代码等功能。
而这一次,开发人员在这个模型的基础上,带来了全新的功能——
自动生成图片
根据描述,这个名为DALL·E的模型,能够通过文字创建相应的图片。
接下来划重点。
包括现实当中不存在的东西,也可以用图片的形式制造出来。
即便这个要求非常荒谬……
举个例子。
当机哥选择“一条留着胡须的小鲨鱼在骑摩托车的插画”时,这个模型就能按照要求,创建出一系列符合要求的图片。
别说,还真的像模像样。
除此之外,这个模型DALL·E还能创建出非常逼真的实物图片。
例如“一张皮卡丘沙发”。
虽然看起来不像是阳间的东西,但是从照片的质量上来看,不细看很难发现其中的端倪。
按照这个逻辑来说的话,机哥知道很多人,已经开始思考如何最大限度地,发挥这个DALL·E模型的作用了。
没错,如果这个DALL·E模型继续这样发展下去的话,所有能够通过语言表达出来的场景,基本上都能够制作成图片。
例如两个毫不相干的人,就可以通过这个模型,生成各种一起相处的图片。
各种各样的场景,各种各样的 姿势 动作,DALL·E都能满足。
从技术层面来讲 ,这的确是可行的。
因为DALL·E以1280个字符串,将每一张图片进行自动回归建模。
其中,图片的描述文本为256个字符串,图像内容为1024个字符串。
而每张图片里的64个自注意力层(self-attention layers),都有各自的注意力遮罩,将两种字符串联系起来。
在需要生成图片时,DALL·E就会将输入的文本进行解码,转换为相应的字符串。
这时候通过字符串,在模型里选择相应的图像内容进行合成,就能得到最终想要的效果。
听不懂没关系。
简单来说,只要通过大量的学习,就没有DALL·E无法生成的图片。
但是嚯,研究团队已经说明,这个模型的工作可能会产生重大而广泛的社会影响。
将来,研究团队计划通过提升DALL·E的能力,来应对类似的道德挑战。
不过除了大家想的那些功能之外,研究人员还展示了一些DALL·E的实用功能。
例如提取不同物体的纹理和属性,在三维实体当中显示出来。
像是“电路板做成的立方体”,正常情况下谁会整这玩意……而DALL·E就能轻松生成。
除此之外,DALL·E还可以生成各种摄影大片。
例如选择“美洲狮坐在山上的高角度视图”时,就能得到各种比肩专业摄影作品的图片。
甚至可以单靠画面的部分细节,就让DALL·E把整幅画面全部补齐。
例如下面这个石膏雕像的顶部,就合成了数十种结果。
不仅如此,DALL·E还支持用户凭空生成一家店铺。
并且还能把这个店铺的名称,做成多种风格。
还有甚至还有同名的可乐,也能凭空制造出来。
另外,DALL·E甚至还可以客串设计师的工作。只要输入特定的服饰关键词,它就能呈现出各种各样的设计。
机哥选择了“穿着高领毛衣的女模特”,然后就得到了下面这么多的款式。
当然啦,并不是任何情况下都能得到完美的图片。
例如研究人员利用DALL·E,来组合各种不同动物,创造动画片里的神奇动物形象时,效果就非常魔幻。
像是“狮子和龟的结合体”……
还有“皮卡丘和龙虾的结合体”……
虽然看起来DALL·E按照要求完成了图片,但效果看起来非常荒谬扯淡。
大家伙看看,这真的是认真的吗?
这个DALL·E还能根据不同的地域,生成具有其特色的图片。
例如“中国食物”。
生成出来的图片,每一张都很像是大家平常会吃到的,但就是完全不认识的食物。
还有“中国的街道”。
每一张像极了平时会路过的建筑,的确有点厉害。
不过细看之下,还是有很多拼凑的痕迹。
除此之外,DALL·E还有一个功能,在座的各位机友肯定都很感兴趣。
研究人员试图利用它,总结过往科技发展的规律,并且预测并生成未来科技产品的样子。
例如手机。
根据过去几十年里的设计趋势,DALL·E帮机哥生成了100多年间,从老式电话机到智能手机的图片。
就连未来手机的样子,DALL·E都已经按照趋势预测好。
同样的,还有电脑。
到了电视的发展历程,DALL·E所呈现的图片明显就有点不用心。
未来的电视,居然倒回到上个世纪的设计……
同样的,还有相机。
零部件越来越少,在DALL·E的预测里,基本上就只剩下一个摄像头和一块显示屏幕。
就这么看下来,目前的DALL·E的确可以生成各种逼真的图片。
但是在内行人眼里,这些图片距离以假乱真,还是有那么一点距离。
不过嚯,机哥必须说,这只是这个模型的初代版本。
如果未来能够得到重点的开发,并且广泛应用到各个领域上的话,那么肯定能达到更好的效果。
对此机哥只希望,各位研究人员能够搞快点。
在座的很多机友,想用它合成一下未来的对象到底是什么样子。