本文来自微信公众号:机器之能 (ID:almosthuman2017),作者:木非,原文标题:《AI绘画之问:Midjourney走上神坛,靠什么赚钱》,题图:由Midjourney生成
Midjourney因为一出乌龙再次倍受关注。
5月17日,一个名为“Midjourney AI”的公众号宣布:从5月15日晚六点起,开放Midjourney官方中文版内测。之后消息遭到删除,有自媒体质疑其为不实消息。
在闹了一出乌龙之后,Midjourney官方正式回应,“Midjourney AI”确属Midjourney官方微信号,开启中文版内测消息属实。Midjourney 官方中文版已经开启内测申请,将搭载在 QQ 频道上,每周一、周五下午 6 点统一开放,达到一定人数后会关闭入口。
另外一个重磅消息是, QQ正在全力支持Midjourney频道的商业化。
在此之前,Midjourney早已火遍全球,对于行业内人来说,更关注的是它开启中国市场将会为AI绘画带来哪些改变以及能否给出一个全新的商业模式。
AI绘画并不是一个新概念。
2017年,Google开源一个AI简笔画应用;同年Facebook发布CAN创造性对抗网络模型。2021年,OpenAI又相继发布DALL-E模型、CLIP模型;而2022年界内更是爆发出各路新模型,整个赛道呈现高速增长的状态。
然而有些出人意料的是,比起深入研发,AI绘画在国内最大型出圈却是流量路线的快车道。与AI绘画相关的微信公众号、小程序近期不断涌现。有大公司,小公司、个体研发也不罕见。去年9月,AI绘画应用不断涌现,包括生成式AI平台TIAMAT、6pen、draft.art、大画家Domo、盗梦师等。
一对九十年代中国情侣,由Midjourney V5生成
今年四月份,Midjourney发布了第五代V5模型之后,AI绘画被再次引爆。它展现出来的AI照片效果逼真、速度快,而且在使用上不需要部署任何本地硬件。由它生成的一张“中国情侣”图片因效果酷似真人而火爆出圈,不少网友表示,在得知它是由AI工具创作之前,只觉得是一张平平无奇的照片。这说明由AI生成的图片和真正的照片在人眼视觉上已经没有了差别,不少人惊呼:AI绘画元年已经到来。
然而另一方面,作为Midjourney最大对手的StabilityAI却陷入连年亏损。
StabilityAI是StableDiffusion的母公司,成立于2019年,属于AI绘画行业老牌公司,在行业内StabilityAI因为其在技术领域作出的巨大贡献而知名。与Midjourney不同,StableDiffusion是开源的,这意味着任何人都可以查看或下载代码,配置一张家用中高端显卡,就能在本地训练和部署AI模型。从开源角度来说,StableDiffusion更像是回到了OpenAI的初衷。
目前,StabilityAI已融资超过1亿美元,其对外宣称Stable Diffusion已被全球超过200000名开发者下载和授权,根据《福布斯》报道,Stable Diffusion日活用户超过1000万——已经超过OpenAI的DALL-E2,低于Midjourney的1500万。StabilityAI还在探索商业模式,但公司实现的营收,完全覆盖不了巨额的服务器和人才招募的费用。
相比之下,Midjourney公司只有11人,同样云端有大算力消耗,Midjourney似乎走得顺风顺水,V5模型发布之后,迅速爆发,站上AI绘画的龙头,不禁要问:谁是Midjourney?它是一家怎样的公司?Midjourney做对了什么?AI绘画商业模式路在何方?
一、十一人,一亿营收
算起来,Midjourney还是一个新生儿,还没有过它的一岁生日,如同它的创始团队一样年轻,11人散居全球各地,没有固定办公地,最年轻的4人甚至还在读本科。
创始人大卫·霍尔茨(David Holz)是一个身上带着一些理想主义的理工科怪才。
在创立之初,他就给Midjourney设立了一个非常理想主义的宗旨:AI 不是现实世界的复刻,而是人类想象力的延伸。在大卫·霍尔茨的蓝图中,他要打造的是一个“想象力引擎”,他认为想象力是人们在世界上所需东西的重要支柱。而同时,人们可以把AIGC变成一种力量,扩展人类的想象力。
霍尔茨少年天才,高中时期感兴趣的是设计,还做过设计生意。上大学后,他转头学了与设计几乎不相干的物理和数学。研究生期间,他希望能选择与现实有关的专业,于是读了应用数学专业。之后,他又攻读了流体力学博士。
2010年,霍尔茨创立了一家以研发手部跟踪技术为主的公司——Leap Motion。这个控制器内装有多种传感设备,能追踪到小到0.01毫米的动作,当你把手放在它正上方,便可以跟踪十指动作,并借助计算机视觉技术,让你的手部动作投射在虚拟空间中。
这款充满着想象和憧憬的产品推出后,Leap Motion一炮而红。2013年经过B轮融资之后达到巅峰状态,估值达到3.06亿美元。然而,由于与之相关的VR/AR技术一直不成熟,Leap Motion也始终没能做出有具体应用场景的产品。最终,2019年,大卫决定把 Leap Motion 公司卖给竞争对手 Ultrahaptics。随后,他成立了一个工作室来探索新的机会。
霍尔茨成立的这家工作室就是后来的Midjourney。他确实等来了新机会。
Transformer架构的出现,彻底改写了图像合成的历史。随后而来的是一个AIGC的大时代,借着生成式AI的东风,霍尔茨带领着他的伙伴们站上了AI绘画的潮头。目前,公司团队成员仅11人,其中1位创始人、8位研发人员、1位法务、1位财务。
更令人惊讶的是在短短时间内,Midjourney完成了一亿美元营收。Midjourney的盈利模式看上去十分简单,即通过付费订阅的商业模式,按月向用户收取费用,其标准有3种套餐,分别是10/30/60美元/月。
在霍尔茨看来,付费订阅是最诚实的商业模式。“我想把它做成付费业务的原因之一是,我觉得这是最诚实的商业模式。这就像我在编写基础设施,你在为基础设施付费,用利润来支付一个团队。”霍尔茨表示。
起初,Midjourney的大部分客户都是高级客户,然而这也限制了公司的营收。“事实上你不需要那么高的利润率,后来我们就把利润率降低了,这样也使得我们赢得了更多客户。”霍尔茨说道。
从Midjourney看似不可思议的创业经历中可以发现,每一次科技变革的浪潮中,真正能够脱颖而出的企业、团队,未必是财大气粗的头部大厂。他认为,原创的思维是最重要的,同时团队还需要很强的执行力。
任何一家人工智能企业都是算力怪兽,Midjourney也是,霍尔茨得到资金的方法居然是——“刷脸”。
据报道,David Holz给一个云供应商的负责人发邮件,希望对方提供10000个GPU。很快,Midjourney获得了云供应商的支持,原因便是他们了解到霍尔茨,知道他以前的创业经历。霍尔茨曾在采访中说道:“我不需要风险投资,因为人们知道我是谁。我不需要去找任何人,向他们解释我的业务是什么,这是一个巨大的优势,是一个已知的技术因素。”
二、效果逼真、不开源、订阅制
Midjourney V5是一件重要的版本更新,它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围,以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。
换句话说,它比以往任何AI绘画应用都“逼真”。曾经在 AI 绘画界广泛流传的一个笑话,“永远不要问一个女人的年龄或一个 AI 模型为什么要把手藏起来。”这是因为,AI艺术生成本质上还是基于算法,即根据之前学习过的图片给出一个新的图像。换句话说,AI可以通过学习掌握人类的视觉模式,但是没有一幅图片可以告诉它,人类应该只有5根手指以及这些手指之间应该具有固定关系的设定长度。
特朗普被捕,由Midjourney V5生成
Midjourney V5此次带来的能力不仅在精细程度上超越了以往,还惊奇地“画对了手”。之后的使用中,广大用户用它画了“特朗普被捕”,“马斯克来中国”,甚至还让国足拿了一回世界杯。
国足捧起大力神杯,由Midjourney V5生成
Midjourney使用起来极为简单,注册Discord账号之后,即可进入Midjourney频道,随后可以加入公测服务器。使用时,用户只需要输入命令提示符,就可以生成对应的高品质图形。它可以让用户避开复杂的使用技巧,同时可以用算法让机器想象你输入命令的样子。
这也是Midjourney能够脱颖而出的地方。Midjourney的入口在社交软件Discord里,腾讯的QQ频道正是模仿了Discord。正是这种奇葩举动给了Midjourney强大的创造力。
任何用户都可以直接进入Midjourney在Discord的频道,然后看到全球的绘画者在群里输入提示词,得到AI绘画成品。这意味着,小白用户可以直接复制大牛的提示词,稍作调整获取同样的效果图。Midjourney的用户正是在这种环境里,互相学习(拷贝),迅速成长。Discord为Midjourney提供了一种共创的土壤。毫不夸张地说,MJ可能培养起了全球头一批AI绘画玩家、艺术家。
Discord既是Midjourney的创作平台,同时也是Midjourney用户的学习和沟通平台。
创始人霍尔茨提到,“我认为如果只是在一个房间里和一个聊天机器人交谈,Midjourney的体验就完全行不通了。但如果是在一个有很多人的房间里,它就会变得非常有趣。这是我以前从未见过的聊天机器人的另一个领域,是一个聊天机器人在一个有多人的环境中,而不是试图成为一个人。”在他看来,如果把AI当作一个聊天机器人,然后用户和它一对一沟通,这是很糟糕的。
三、Midjourney VS Stable Diffusion
作为AI绘画领域的两个“领头羊”,人们总会把Midjourney和Stable Diffusion放在一起对比。
Stabble Diffusion 选择的是另外一条路子,即开源生态。开源对于一家公司来讲是最好的扩大开发者生态的最好方法,创业公司能够快速部署自己的技术基础框架,而后开始产品打磨。对于创作者来说,也能够以更低的花费来创造更多花活,说不定形成小而美的技术壁垒,因而走上人生巅峰。
完全免费、不限次数、任何人都可用——这是Stable Diffusion的优势,同时还可以在GitHub上找到完整的源代码和文档。这样的好处在于,开源社区会齐心协力地完善模型文档,共同解决技术难题。这使得代码的迭代速度非常快,优化效率远远高于闭源系统。
当然,开源生态的缺点就是泥沙俱下,生图质量本身就是一个问题,又夹杂各种目的的创业者和创作者,我们需要花费更多的时间和精力去筛选优秀的软件和作品,对于模型训练来说,优质的数据往往是决定最终成果的关键。另一个重要问题在于:如果没有其他护城河,商业化问题难以解决,很容易成为别人前进的垫脚石。
相较而言,收费模式容易劝退用户,在社区支持和维护方面也逊于开源的Stable Diffusion。同时,相对封闭也成为Midjourney构建自身护城河的重要方式。因为没有公开其源代码,因此无法被广泛地研究、改进和应用,Midjourney积累的数据集具有独家性,可以进行针对性训练。
Midjourney的成功或许包含了多种因素,比如:清晰的目标定位,快速在一个仍然混沌的市场中找到合适的产品形态;专注在有价值的具体业务方面,迅速形成技术优势;找到一个有充沛流量的场景Discord,实现低成本获客,低成本营销等。
但Midjourney在Discord上的这种“寄生”关系也引起了行业的诟病,甚至有人视其为“AI浪潮中的投机分子”。对此,霍尔茨已经表示,从长远来看,Midjourney将拥有自己的网站,自己的用户界面,虽然现在公司不需要花费时间来构建整个用户界面。
一位AIGC领域创业者表示:“Midjourney整个应用都是架设在Discord之上,可以看作是Discord的一个插件,或者Bot。由于Midjourney驱动得早,现在又赶上好时机,基于Discord的用户基础,积累了大量用户偏好数据来让模型生成得更好看。”
还有一个值得关注的问题在于,算力部署。Midjourney在硬件方面,对用户几乎没什么要求,这是因为前文提到的GPU。
有行业人士认为,Midjourney这类现象级应用虽然在商业上已经取得成功,但是由于缺乏底层的自研技术,因此很难成为下一个微软或者Adobe。Stability AI或者Runway这样的公司更有机会。
本文来自微信公众号:机器之能 (ID:almosthuman2017),作者:木非