本文来自微信公众号:飞总聊IT(ID:feiitworld),作者:飞总本尊,题图来自:视觉中国


这几天关于Sora的传闻很多。


其中有这样一件事情,非常的有意思,飞总给大家八卦一下。


故事从下面这个小哥说起:


截图自:LinkedIn@William Peebles


这个名字叫做William Peebles的人,是2023年5月才毕业的计算机PhD。他毕业于加州大学伯克利分校,研究方向是AI。


这个小哥的LinkedIn上的介绍很简单:


截图自:LinkedIn@William Peebles


没错,这几天火到出圈,火出天际的Sora,这位小哥就是领导者之一。


毕竟Co-leading Sora这样的话,不是一般人可以随便写上去的。


而这位小哥,2023年5月才PhD毕业。2024年2月,Sora已经火爆全网,彻底出圈了。


这年纪,这成就,这火爆程度。我们是应该说OpenAI确实不拘一格使用人才呢,还是应该说这个小哥太牛逼了。


不过我相信,再牛逼,如果换个公司,比如微软什么的,这个小哥想一毕业就领导Sora这么牛逼的项目,简直无法想象。


上面肯定有一堆堆的资深人士,绝对不可能给资源给显卡让这个小哥如此轻松地霍霍。


那么问题来了, 为什么我标题上说OpenAI用Sora打脸CVPR呢?


这个故事要从一篇论文说起。论文标题是“Scalable Diffusion Models with Transformers”。这篇论文发表在ICCV 2023上。


ICCV也是个很不错的会议,在计算机视觉领域和CVPR比起来,差距不大。


而根据网上传出来的消息,这篇论文首先投稿的是CVPR 2023,被评委们以创新性不足给拒绝了。之后论文才转投了ICCV 2023。


更重要的是,这篇被CVPR认为创新性不足的论文,正是今天名声大噪的Sora的底层技术。


当然,毫无疑问,Sora肯定做了各种各样的改进。但是其底层的技术基于Diffusion Transformer这个基本事实是无法改变的。


小哥William Peebles肯定是Diffusion Transformer领域的大牛,毕竟这个领域就是他在做。他在PhD期间一直都在做。


那么问题来了,被计算机视觉顶级会议CVPR认为缺乏创新性的技术,OpenAI却给小哥大量的资源,让其做出了text to video的Sora项目。


到底是OpenAI的负责人们傻,还是CVPR的评委们傻呢?


你要按照今天的逻辑去看,显然Sora名声大噪,而CVPR评委说的缺乏创新性貌似确实有点问题。


可是事情不能这么看,我们现在是以上帝视角,去拿着已经出结果的未来检视当初。


而CVPR的评委审查论文,以及OpenAI决定砸钱砸显卡做Sora这个项目的时候,这个技术的未来到底是怎么样,是未知的。


显然,OpenAI和CVPR的评委们,做了截然不同的预测。前者觉得值得砸钱,后者觉得没什么创新性。


但是问题来了,学术圈的“创新性”,到底意义有多大?到底是学术圈自娱自乐的产物,还是真的有现实的意义。


要这么来说的话,GPT-1和GPT-2的表现没有好于其他的模型,但是GPT的模型规模上来以后,显然就展现出了令人吃惊的成果。


而在GPT-1和GPT-2都不怎么样的情况下,OpenAI依然坚持GPT的技术路线,这是为什么?


我以前读过PhD,写过论文,后来也混产业。我发现的一个问题是,学术圈里面自娱自乐的东西很多,有些研究,到了工业级,就毫无意义了。


反之亦然,工业界的人会看可行性、看规模效应怎么样,在审稿论文的时候,和学术界的人之间也会吵翻天。


屁股决定脑袋,真的是永恒不变的真理,无论是数据库圈子,还是AI圈子。


当然,今天我们要问的不是屁股和脑袋的问题。而是客观上,到底谁更靠谱。是CVPR审稿的教授们?还是OpenAI的研究人员?


不管怎么样,现在看起来,OpenAI对技术路线的判断,确实在AI领域,当之无愧的王炸。CVPR被打脸,也是真的惨。


本文来自微信公众号:飞总聊IT(ID:feiitworld),作者:飞总本尊