先讲两个非常“中国特色”的荒诞段子:


小红书上,一位投资领域的博主称,一天内已经有三个项目方找过来说要做中国版Sora,但听起来,心态都是“看看能不能骗点钱”;


另有一图,昨日广为流传,图上标“中美两大AI巨头”。美方代表是OpenAI的CEO奥特曼,中方代表则是卖AI课赚了上亿的博主李一舟。


怎么说呢,前者未经证实,但代表了一部分人对AI创业者,乃至整个创业者群体的“刻板”印象;到了李一舟这,这种“刻板印象”终于有了明确的指摘对象,没办法,谁让人家赚钱了呢。不过到底是虚晃一枪,瞧不上的是中国AI。


调侃归调侃,当我拿这消息问几位投资人朋友时,反馈是,还没人碰到过打着中国版Sora旗号的离谱项目。我想,这可能是因为,大家还处在震惊之中,需要一点反应的时间。也可能因为,和去年ChatGPT搅动的热潮相比,今年的情况相似又不同。


对世界丧失掌控感的心态大体是相似的,不同在于,经历过去一年的洗礼,到今年,不论是创业者还是投资人都成熟了。一部分人清醒地意识到,热闹归热闹,但热闹大都是OpenAI的。


一、“霸权创业”


“我们之后大概率不会投文生视频类项目了,因为OpenAI太强了。”一家主流投资机构的朋友这样回复我。


很难说这种心态是悲观,还是认清现实后的冷静。如果回溯,类似的言论最早从去年3月GPT-4发布插件便开始了。


在《第一批投AIGC的VC开始后悔了》一文中,我写过当时典型的担忧是:是不是所有垂类的应用公司都会被基于GPT-4插件的生态取代?之前投的项目会不会黄了?今后还要不要看?


别怪写稿的人絮叨,因为类似的事情总在不断发生。去年年底,奥特曼在YC的一场演讲,又给生成式AI领域的创业者浇了一盆冷水。


他建议,应该以通用人工智能的实现为前提进行技术开发。因为GPT5可能会相对于GPT-4有指数级的跳跃,这个进展将会给初创企业和现有公司带来许多挑战。反过来说,他不建议的是,创建那些产品业务致力于解决当前GPT-4限制的内容,因为大多数限制将在GPT5中修复。


这份给创业者的指南,既诚恳,又傲慢,杀伤力极大。AI巨无霸的掌舵者在提醒创业者,不要瞎折腾,OpenAI自身的迭代很快会覆盖一批公司。


我更想到了另外一段话,来自一年前的另一个“大模型”选题,当时ChatGPT给了世界一个“小小的震撼”,也带来了一阵密集的投资风口,几乎所有人都在努力寻找能交付出类似产品的创业者,并且不吝于将寻找到的创业者塑造成神。


我本能地对当时的氛围感到警惕,于是设计了一份简单问卷,向超过30个人工智能赛道内的创业团队发出QA邀请,试图搞清楚舆论是否过热并且严重拔高了行业现状,然后收到了一份这样的答案:


我们认为人工智能这一轮的发展是不断集成人类智能的过程,在这个过程中很多流程、环节、都会吞噬,形成端到端、自动化的解决方案,最后会不可避免地形成超级智能——这些环节在上一代互联网的时代是存在独角兽公司的(所以互联网时代是一个“平权”的创业时代),但是现在没机会了——比如GPT-4出现之前很多企业做视频和图片处理,但GPT-4出来以后对他们是一个重大打击,模式是否成立都是问题。


这个答案来自集智魔方创始人徐大大。简单概括,他认为人工智能这一次的热潮很难留下太多机会,反而可能即将面临一个“霸权式创业”的时代。


而这种“霸权创业”的感受也正在完整地通过创业者传递给投资人。徐大大和很多VC接触后,发现大家目前形成的共识是创业规划要有“战略提前量”,而不是寻求“时间提前量”,因为“如果方向错了,早晚被足够的算力追上”。


具体到视频生成领域,AI投资人Magic(化名)跟我分享了一个真实案例。去年他们团队反复讨论过要不要布局一家文生视频公司,最终还是没投。


当初纠结的点在于,他们看到的国内公司现有的方案明显有性能上限,同时知道OpenAI在用更fundamental的方式解决问题,只是不知道什么时候能做出来。“说白了就是知道OpenAI会做,觉得其他公司没有戏,但没想到来得这么快。”


现有的能想到的场景OpenAI一定能想到,还能有什么新的场景出来?OpenAI的超能力令AI投资人陷入迷惘,不确定究竟该在应用层面投些什么。


谈追赶,Magic没那么乐观。他认为,国内公司与OpenAI的差距,本质在于视野、认知和工程化能力的不同,当中的差距不是任何一家公司能在短时间内弥补的。


更不用说,国内一部分公司对外宣扬的和实际情况多少存在一些水分。比如,我在某公司去年的通稿里看到如下描述——“视频生成能实现可控的内容改写与风格迁移,效果优于Runway等在内的主流模型。”


二、国内的“类Sora产品”


放眼我国近几年的科技行业,创业者们对于“类Sora产品”的尝试一直没有停止。从技术路线来看可以分为两类:


一类是由剪辑工具衍生出来的“文生视频”产品。与Sora相同,这类产品的使用逻辑十分“自然语言”,用户只需要输入文本内容,产品就能匹配上对应的视频素材生成成片,只是这类产品并不会根据文本内容原生视频素材,而是在素材库内进行调用。


时间线上,早在2020年10月知乎就推出了“一键图文转视频”,配合当时同期推出的“海盐计划”,内容视频化战争打响;2021年4月,剪映也上线了“图文成片”功能,大量创作者使用后,得出的一致结论是“感觉会干死一堆营销号”。


可以说,也正是这条技术路线的成熟,催生了这几天Sora的一个衍生话题——Sora会“杀死”剪映吗,我的编辑也建议,将 “梁茹波在字节年度大会上反省了公司内部的技术讨论直到2023年才有GPT相关议题”和“张楠在年初辞去抖音集团CEO职务,宣布将专注于剪映”联系在一起,进而得出“AI视频生成”或许是字节跳动找到的最现实也最直接的“第二增长曲线”的结论。


前字节跳动算法工程师“像素炼金师”持类似的观点。他在知乎问题“OpenAI的视频模型Sora能否颠覆影视创作”的回答里写过这样一段话:


“不要怀疑视觉模型的能力……ChatGPT的上限可以质疑,大语言模型的训练可能面临着数据的匮乏,高质量的数据早就已经全部纳入到GPT-4的训练集里了。但视觉的数据和文本不一样,我们可以几乎无限的从世界当中采集。”


第二类是由多模态大模型衍生出来的“文生视频”产品,此前让郭德纲说英语、让川普说山东话而大火的HeyGen就是其中的代表。类似的产品还包括FancyTech、Wondershare、腾讯智影,这些产品都具备用户通过“输入自然语言”生成一段视频,并且针对性地原生一部分素材的能力。


如果以更冰冷的技术视角来看,Sora又似乎有被“神化”的嫌疑,许多AI界大鳄指出,其技术壁垒似乎一定程度上被高估了。


2022年10月,谷歌曾经宣布过开发文本转视频产品Imagen Video。根据同步公开的技术论文,当时的谷歌工程师们就已经开始计划以24FPS的帧数输出1280x768高清视频,并且尝试在保留对象结构的同时“让对象结构能够完成3D旋转以及更多的画面形式”。


此时距离OpenAI发布著名的DALLE-2,仅仅只有半年的时间。


而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。


而同日发布的谷歌多模态模型Gemini 1.5,能持续运行100万tokens,“1小时视频、11小时音频、超过3万行代码”,我大胆揣测,由于sora以视频的方式呈现太过惊艳,才让谷歌成了汪峰,痛失头条。


今年1月,北京大学、斯坦福大学、Pika Labs联合发布了一套全新的文生图框架RPG-Diffusion Master,旨在解决文生图常常“货不对版”背后的两大难题:缺乏画面的空间引导,并且难以处理重叠的对象;基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。


所以很大程度上,真正让“中美AI角逐”看起来略显吃力的地方,不是创业者不努力,而是一是努力不过“钞能力”,二是如那位OpenAI的天才谢赛宁所言,人才、数据、算力,三者之间的差距,很难弥补。


由剪辑工具衍生出来的“文生视频”产品,往往背靠着巨大的内容生态。作为创作者生态的一环,这层属性的一体两面,是第三方“文生视频”产品在商业化上存在巨大的问题。


两年前我曾经收到过一份“文转视频”产品的BP,第一页旗帜鲜明地写着“做内容赛道的基建产品,成就中国最大的泛知识内容创作者平台”,核心竞争力是“行业率先的中视频素材库”“独创的智能文本区”“云协作”,融资目标相对保守地定在了500万美元。


这几天重新聊起Sora的时候,才发现他们没有挺过2023,当初发BP给我的朋友发了一个哭脸emoji,说:“一开始我们就错了”。


我忍不住追问他们的复活计划:“文生视频这一段一定要和Sora对比吗?就像文艺片存在的同时不影响爆米花电影的卖座,只要成本够低、操作门槛够低,文生视频工具似乎是有一定市场的,并不一定需要‘太智能’。”


朋友的对话框开始漫长地停留在“对方正在输入”状态。半晌,他决定回复这样两段话:“老板不看好中视频赛道,觉得XX就那水平,我们还给他们的创作者做工具就更没前途了……泛知识类视频的商业天花板可能只是亿级,而影视广告行业的商业天花板是万亿级的。”


同样的“出身困境”,也体现在多模态大模型衍生出来的“文生视频”产品中。这些产品所提供的“文生视频”功能,大部分都为明确的应用场景设计,例如电商虚拟主播、服装设计展示,进而导致他们最终输出的成品通常呈现出“半AIGC状态”——帮助用户在有限的模板下进行一定的原生。


三、还没看到产业化的可能


也不是没有乐观的声音。


“现在是整个行业技术不成熟啊,我觉得这个方向可以再跑跑,虽然Sora是SOTA的算法,但我觉得差距没大家想象的那么大,到今年年底的时候估计会接近文生图。”


当我问及文生视频在国内的前景,投了大模型公司的James(化名)这样告诉我。SOTA,全称“state-of-the-art”,用于描述机器学习中某个任务上当前最优效果的模型。


乐观或悲观,不过是大家基于自己看到的论据得出的主观结论。如果文生视频在国内有机会,不妨把问题提得再具体一点,那会是谁的机会?随着融资军备竞赛的白热化,会是现有这些大模型头部玩家之间的竞争吗?


头部大模型创业公司里,月之暗面、MiniMAX、百川智能等都在年后传出了最新一笔大额融资的消息。弹药充足,为的是应对模型迭代持续烧钱的现状,而多模态模型正是当下国内大模型的竞争点之一。


据我了解,腾讯、智谱AI等都已经在研发视频生成大模型。月之暗面也被媒体披露出正在研发通用多模态模型。


投资人的观点仍然没有定论。James判断,还是大模型公司机会大一些。Magic认为,看上去似乎是这样,变量在于国内这些大模型公司把核心任务放在了追赶GPT-4和GPT-5上,而文生视频是另一条线,肯定会做,但能给多少资源还不一定。


“如果产品能立住,不排除有独立模型开发的公司也能跑出来。”


而当着眼于实际应用,只能说,不管是国内公司,还是Sora、Runway、Pika,他们的产品距离产业化应用还有一段距离。有投资人告诉我,文生视频这件事要在中国落地,还是要关注商业化的问题,或者公司有出海的能力。


再讲一个现实的创业故事吧。出海,正是AIGC创业者吴立素给公司规划的路径。


几年前我认识他时,他还在做网剧和网大,如今他公司的主要业务放在短剧和AI,利用人工智能生成三维和平面内容。2022年夏天,他成立了人工智能机构SOLART TECH(素鳞科技),并在随后一年加入英伟达inception program、Google cloud for AI startup和Amazon的加速计划。


出于自身业务需求,而不是开一场发布会,吴立素的团队去年尝试过自研视频生成大模型,数据来源是自有版权的电影和动画片。花了几百万,他得出的结论是,投入巨大,结果却差强人意,距离产业化应用比较远。


“基于工程文件去做数据标注的精准度高,但我们数据量不大,所以生成的内容比较有限。动画部分和Pika 1.0的效果相近,但真实人物会有恐怖屋效应。”


“我们团队基本上都是会写代码的影视艺术工作者,所以开始还会有一点优势。”在他看来,去年包括Pika在内的很多团队进行画面推理还只是基于图像学研究,而今年Sora团队里的成员,有越来越多的跨专业人才能进行交叉学科研究。


架不住OpenAI大力出奇迹。吴立素决定放弃自研视频生成大模型,转向基于大模型做一些小模型。他希望结合其他技术和工具,推动产品实际落地。“国内做全视频生成的公司方向都不太一样,但多是以科研的形式在做,目前没看到有商业化或产业化的可能性。”


产业应用更多的要求是精准度,而即使是Sora的呈现也有很大的不稳定性。他打了个比方,“数学公式大家都会,但不一定所有人都能用那套公式把应用题解出来。”


至于文生视频对影视动画产业的影响,也许没想象中那么大。吴立素有计算机背景,又在中传读了数字媒体专业,此后在影视行业摸爬滚打十几年。他的判断是,文生视频目前适用于不太有特定需求的内容填充和背景画面丰富。


“传统影视动画产业里比较讲究精准度的场景和角色情绪表达,纯文字直接生成比较难得到结果,通过图像(分镜故事版)生成会更准确一点。”随着Vision Pro的上市,他也更看好未来3D市场以及3D内容和AI的结合发展的机会。


吴立素做出的另一个决定是,今年公司要出海。“因为国内用户需求增长比较慢,现在更多是卖课的人能赚到钱。”他无奈道。


“向钱看”,是不少人瞧不上中国AI的原因。一位投资人朋友对我表示,从互联网时代开始,美国的科技公司就代表科技与商业的双重突破,而国内则把重心更多放在了跟随和应用,曾经我们似乎看到了平起平坐甚至超越的可能,但到了AI时代,才发现一切都是幻觉。


去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。


我认为方向无关对错,只跟现实土壤有关。2022年中旬,曾经有一位美元基金投资人,强烈建议我关注AI发展趋势,当时就提到了GPT等,而我却一知半解,国内更是鲜有报道,现在他转身加入一家国外的科技创业公司,按他说法,“出来躺躺”。


在那本书中,史蒂芬·沃尔弗拉姆提到了“计算不可约性原理”,“人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在‘收获惊喜的可能’。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。”


那么不妨问问,对这种不可预测的“收获惊喜的可能”,我们到底凭什么?


本文来自微信公众号:投中网 (ID:China-Venture),作者:刘燕秋、蒲凡