光年之外最近在做什么?


曲凯:应该很多人都会好奇光年之外最近都在做些什么?


Hidecloud:最近我们发布了一个 AI 驱动的儿童绘画产品,叫 Dodoboo,将小朋友的几笔涂鸦自动优化成一张比较精美的图画,激发孩子的创造力和自信心。


我们在这件事上做了一些小的创新。市面上已有的涂鸦增强产品,大部分是需要你先写一个 prompt 再画画。但我们的目标人群是 5~10 岁的小朋友,让他们写 prompt 其实是不现实的,所以我们是让他直接动笔画就行了,不需要事先想自己要画什么。这样的话,在同类产品中我们表现还不错。


曲凯:这类产品,它给用户的那个点是什么?


Hidecloud:这个很有意思,我们的产品是做涂鸦增强的,我们本来认为涂鸦本身就是 aha moment。后来工程师想到一个 idea,他说除了这边画画,那边 AI 出图之外,是不是也应该支持把 AI 生成的图再拖过来,进行二次创作?


后来他自己就把这个功能给做了。实际做出来之后,我们发现了一些新的嗨点。


把生成的图拖过来,基于生成的图又生成了一张新的,再拖过来再生成新的,你会发现那个画越变越美,细节越变越多,纹理越变越好,整个过程我们自己就能玩得特别嗨。


所以那个时候我意识到一件事:以前我们可能会觉得对于大模型应用,都是人给它一个 prompt,但这个 prompt 是否一定要来自于用户?我觉得是不一定的。


像我自己去年七八月份,看了很多产品之后,我当时有个判断:我很难想象两三年之后有一款大规模流行的 AI C 端产品,它的主流使用场景是用户拿着手机在那打字。因为打字是非常消耗人精力的事,成本太高了。


所以当时我在想,我一定要做低 prompt 甚至 0 prompt 的产品。像刚才我描述的那个场景,把一张图拖过去再生成下一张图,这就是一个几乎 0 prompt 的过程,但它给你带来的娱乐体验是非常有意思的。


曲凯:我觉得你刚才讲的这个场景就是非常产品经理的一个点,因为从技术上来看,完全可以做到不用拖,它就自己去不断地生成。


Hidecloud:这里面有两个感悟。


一个是在交互这件事上。其实有时候像这样一些人机交互的机会是藏在代码里的,比如在工程上,其实非常好实现 “自动迭代 10 轮”。但我们发现,当把这个过程展开,让人参与进来的时候,这个过程本身就是具备消费价值的。


这其实就非常需要产品和工程之间有紧密的结合,你要理解整个的运作过程,你才能知道这其中哪一部分是可以抽离出来的,哪一部分是人可以以适当的方式参与进去的。这其中会有很多值得挖掘的点。


还有一个点在于,像我刚才描述的那个场景,从一张草稿变为一张精美的画作,对我来说消费的是过程,但对于我身边的同事来说,他们欣赏的是内容本身。


所以,AIGC 里,G(Generate)和 C(Content)都是具备消费价值的。我觉得最终不一定是每个人都来 G,有可能是少部分人来 G,而绝大部分人是来消费 C 的。只不过我们需要思考怎样用一个合适的形式,让用户参与进来,不管消费的是最终的产物,还是过程本身。


今年 toB、toC 都会有现象级的产品出来了


曲凯:做了半年多的 AI 产品,现在的你对于 AI 的理解和之前有哪些区别?


Hidecloud:行业内一直有一种说法,闭源模型永远会领先开源模型。但从我们自己的实践来看,最近半年,整个开源社区的进展是异常的夸张。每个星期都像过年一样。整个学术界和产业界对于开源社区的贡献,已经超过了我在半年前我对我所能够利用的 AI 能力的想象。


当然你也可以说这不算什么,闭源的某公司拥有更强大的模型能力,但我觉得 so what? 如果现有的开源社区已经提供了足够好用的模型能力,我为什么还一定要追求最强大的呢?


曲凯:我理解你的意思是,现在的各种开源模型、开源算法,其实相当于产品经理的弹药库。有的人有原子弹,但也无所谓,平时也用不上,只要够用就足够了。所以目前你的弹药库里大概都有哪些东西?


Hidecloud:比如先从我们最熟悉的语言模型开始说起。


从整个开源社区的角度来看,有两个比较主流的方向,一个是 Llama 2,另一个是 Mistral。市场上绝大部分 fine-tuned 的版本都是基于它们两个做的。


另外,在视觉语言模型方面,开源社区里也有非常多好用的。


比如 LLaVA,它是基于 Llama 的视觉语言模型,可以用它做一些图片描述。现在只要给它一张图,它便能够给出非常 detail 的图片描述,我有时候甚至都没能注意到这个图上居然还有这个细节,这在半年前都是想都不敢想的技术。


图像方面的话,在 Stable Diffusion 生态里,有两个我觉得是去年比较重要的工作。一个是 ControlNet,另一个是去年年底的 LCM(Latent Consistency Model)技术,它核心解决的是效率的问题。


以前就算你有 4090 的卡,跑一张图也得至少 10 秒,但是有 LCM 之后,它可以把出图的时间直接压缩到毫秒级别。


像以前的一些图像生成场景,可能需要二十几秒的延迟。但谁能想到半年的时间,就已经可以做到毫秒级出图,这在产品中的想象空间就变大了很多。


视频和声音方面,像 Pika、ElevenLabs 这种最顶尖的商业产品,它们的大部分模型能力,都能在开源社区中找到对应的方案。当然这其中可能需要一些界面上的包装、模型间的微调。


曲凯:但既然弹药库里已经有这么多武器了,也能更低成本、更高质量地完成了,为什么在过去半年里,我们没有看到更多像妙鸭这样的爆款应用出来?


Hidecloud:这个问题非常有意思。


我觉得这一波 AI,不光是要站在用户需求和商业视角上做产品,更多是要去理解模型的能力边界。我很 buy in 王小川提过的一个观点:上一代产品经理解决的是 PMF,即产品和市场的 fit,这一代产品经理还要先解决 TPF,即产品和技术的 fit。


我上周末做了一个 AI 行业的分享,分享的对象是行业里一帮顶尖的,彼此认识了快 10 年的产品人。说实话我的分享只是一些很基础的,关于 stable diffusion 底层原理的认识,但即使是这样,对于这批顶尖的产品同学来说,大家仍然会觉得这是很崭新的认知。


所以我自己有一个很大的感受是,绝大部分人,只是保持了一种兴奋、震惊,但真的去理解整个学术界和工业界进展的同学,是非常少的。AI 火了一年了,但是你看有多少人真的入行搞 AI 了?至于真的去理解每个月的技术进展,最新模型的能力边界、原理的人,就更少了。


所以我觉得这也是为什么过去半年,没有出来那么多新东西的原因。


曲凯:他们是没有去理解最底层的这些技术,还是他们没有及时读 paper 去理解最新的技术?


Hidecloud:都有。


曲凯:为什么是产品经理要来读这些东西?因为像以前这些技术问题似乎都交给 CTO 去做就好了。


Hidecloud:现在的产品大都比较薄。我自己对现在产品的定义是 model as a product,即 model 本身的输入和输出,决定了产品整体的交互。


当然我们不排除未来 AI Native 的产品会越做越深,model 在其中的占比会越来越低。但至少在当下,模型能力还和变戏法一样,它本身对用户来说就已经很新鲜、很有价值了,那这个时候产品经理如果不能去理解模型的能力边界的话,你就很难去把它和用户需求连接起来。


我见过有的团队,尤其是在大厂里,产品、技术和模型分三家,然后他们三家就仿佛在隔空对话,产品也不知道模型能做什么,技术也不知道产品这边到底想满足什么样的用户需求。


曲凯:这是不是也能解释,为什么现在很多很好的产品是小团队做出来的?


Hidecloud:对,产研之间的配合需要非常紧密。


曲凯:我理解肯定是有相当大比例的人存在这些问题,不管是组织结构跟不上,还是他日常的学习习惯跟不上。但肯定也还是有一小撮人是很优秀的,但他们目前也没有 deliver 出什么成果。你觉得其它的一些阻碍是什么?


Hidecloud:还有一个阻碍点在于,现在的互联网已经不是 20 年前的互联网了。消费者不管是在效率方面的需求,还是娱乐方面的需求,都更深了。你要去竞争的是抖音,是 Office。那现在的 model as a product 本身还太浅了,没法儿立刻满足这些复杂的用户需求。


曲凯:有道理,Albert (拒绝三亿美金 offer 的人 | 42章经)之前也跟我提过,他探索 AI 游戏的时候,也会问自己一个问题:为什么大家不去玩王者荣耀?


Hidecloud:简单来说,如果抖音是 100 分,那我们现在有 10 个 AI 产品在竞争,最低分 30 分,最高分 50 分,你竞争过了所有人,也竞争不过抖音。


曲凯:虽然整体的体验是 30 分,但有没有可能有一个点,我就是为了它而来,这个点可能在某一个维度上达到了 100 分?


Hidecloud:这对某些人群来说是成立的。


比如我一直在 track C.AI 的付费率,我发现有一个非常稳定的人群,这半年以来,这个人群的续费率始终保持在 94%。


但核心的问题在于这个人群的规模有限,很难破圈。如果要找一个更通用的点,目前这个行业还没有找到。


但现在的 AI 产品也冒出了一些好的苗头,像我两个前同事做的产品,一个是 Answer.AI,一个出海教育产品,另一个是 AiPPT,这俩产品的粘性都非常好,如果去细究产品,你会发现它不是单纯的 model as a product,它里面有很多其它的设计。


曲凯:我觉得现在的产品处于两个极端。


一种是 90% 的 model,10% 的传统功能,这一类大家就会觉得很薄,更多是一个玩法,可能突然火一下,就消失了。另一种像你举的 AiPPT,我觉得是反过来的,它可能 90% 是旧有的东西,只有 10% 用到了 AI。


但大家期待的似乎是比较偏中间的那种,一半的模型,一半的产品,这样又有一些神奇的能力,又不会显得太薄。


Hidecloud:我个人不太喜欢在这种事情上下定义。


从历史上看,产品的形态往往是由行业演进而来的,并不是规划出来的。并不是我们说最好是一半一半就一定是一半一半,它是被市场教育、被用户牵引,最后形成了一个情况。很难说什么是最好的。


曲凯:对,但这里涉及到一些问题,我想先问下你,你认为未来的大模型产品是否是端到端分离的?公司是不是一定要自己有模型、训模型?


Hidecloud:这个问题我最近有一些相对成型的想法了。


我不认为现在所有做应用的团队,一定要从零开始 pre-train 一个模型,但我认为团队一定要具备操纵模型的能力。


操纵模型是指,你能根据业务需求,用不同的数据重新引导这个模型,不管是通过 fine-tuning 还是 LoRA,还是做模型的裁剪、蒸馏,你要具备这些能力。


曲凯:对,回到刚才的问题,如果是模型能力很重要的话,那就是模型能力强的人有更好的产品表现。像现在那几个大模型公司拿了这么多钱,它们可以随便招几个人做个产品矩阵。


另外一种情况是,如果是模型占比不高的话,那就是传统的大企业 + AI 是更有效的。


所以这两条线是大家比较 buy in 的,要么是传统大公司 + AI,要么是赌模型,在模型公司里面做应用,但在中间,创业公司做产品到底能做成什么样子,以及最后是否会像移动互联网一样,能把所有东西都重做一遍,这可能是大家还不那么确定的。


从你的角度看,你相信未来所有东西都能被重做一遍吗?


Hidecloud:你看移动互联网的时候,大家一开始想到的都是,我去做一个移动的 Google、移动的淘宝,但最后发现,移动的 Google、移动的淘宝,都是它们自己做出来的,并没有被另外一个公司取代。


真正起来的东西是抖音、是小红书,这些都是 PC 时代没有的。


所以我觉得这一波 AI,不一定什么东西都要重新做一遍。会有很多场景,随着 AI 本身渗透率提高,能慢慢涌现出一些之前从没出现过的需求。


曲凯:你们内部在试的过程中,有发现什么类似的新需求吗?


Hidecloud:很难说,但让我去 bet 的话,在两三年左右的时间里,我非常看好类似 C.AI 的情感陪伴类的场景。


原因是我做了一些相关的实验,然后我突然意识到了一件事情,人类的情感太容易被 hack 了!


我当时用 GPT-4V 模型做了一个很简单的 demo:它会读取你手机中最近的几张照片,并输出为图片描述,然后将图片描述发送给另外一些我用 GPT 做的 agents,这些 agents 是各种人设,比如我的朋友、我的粉丝,这些 agents 看到我的图片描述之后,会像评论朋友圈那样给我留言。


后来我觉得光夸我也没意思,就又做了几个黑我的,以及几个进一步帮我辩护,帮我回怼的。


你想,整个过程,想法是我的想法,agents 的人设是我写的,整体 pipeline 是我搭的,我是一个全知全能的上帝视角,理论上我对于它们输出的内容是有心理预期的,我不应该会被它们所影响。但当我第一次运行这整个 workflow 的时候,我看到这些 agents 在下面有的夸我、有的黑我、有的维护我的时候,我的内心真的被扯动了。


我之前也会看一些经典的心理学实验,看的时候觉得不可思议:怎么人类的情绪就那么容易被操控了呢,但当我自己亲身经历完,当时那一下我就觉得,人类的情感太容易被 hack 了。


你想,如果是一个普通用户,他无法知道这背后的原理,他甚至会觉得这是真的。


所以我相信基于 AI 的情感陪伴一定是一个非常大的机会,人太容易对一个东西产生情感依赖了。


曲凯:你们这几个月在摸索的过程中,感觉现在 AI 产品核心遇到的几个问题是什么?


Hidecloud:成本是蛮大的问题。以前做互联网创业,尤其是近几年,工程层面的开销,几乎在整体成本当中可以忽略不计了,但 AI 产品不一样。


曲凯:这是不是最大的一个区别啊?因为我们也在聊一些团队,大家总在好奇为什么看不到产品,但很多时候是,他们也做出 demo 了,但不敢放,因为放出来可能马上就烧光了。


Hidecloud:对对对,所以做 AI 产品,day one 就得收费。


曲凯:今天的成本和半年前或者一年前相比,大概下降了多少?


Hidecloud:图像领域相比半年前,大概降了 10 倍。


但仍然不够。因为虽然成本在下降,但需求在增加,生成的要求也变高了。可能在半年前,聊 10 句出一张图就满足了,但现在是希望用户能一边聊天,旁边还有个图像同时在动。


曲凯:回到刚才谈到的成本问题是主要问题,还有其它的吗?


Hidecloud:其它的我觉得就是实际的模型能力进展,再给半年时间应该差不多了。


像语言模型,按现在的需求来看已经是完全够用了。只不过在用语言模型的方式上,大家可能需要开阔下思路,比如不一定是单语言模型,可能是不同任务拆到一些不同等级的模型上,或者有时候同一个 query 可以是多个模型配合参与。


现在,语言模型和视觉语言模型我觉得都 ready 了,多模态模型可能还需要 3~6 个月的时间成熟,到时候可能也会再涌现出一些新的产品。


曲凯:所以按你的预期,今年我们是能看到一些新产品的?


Hidecloud:对,我还比较有信心。不管是 toB 还是 toC,今年应该都会有一些现象级的产品出来了。


曲凯:因为你也会跟很多同行交流嘛,你自己是偏乐观还是偏悲观的?


Hidecloud:我是短期偏谨慎吧,中长期乐观。


曲凯:你这谨慎派也已经很乐观了,那我们今年可以好好期待一下。


产品经理该如何学 AI ?


曲凯:你之前做的那个产品经理的分享中,还有没有哪些核心的点是可以给大家总结下的?


Hidecloud:我大概讲了 3 个方面。


第一个方面是关于 Stable Diffusion 的底层原理。而且我发现,在你理解了原理之后,对于产品形态也会产生很多不一样的认知和想法。


比如我有提到一个点,当你把 Stable Diffusion 的底层原理理解透之后,其实你会发现,它是一个从完全没有信息意义、完全随机的噪点中,通过不断地降噪,从而提取出有信息意义的图像的过程。


也就是说,假设有一个 xy 轴的平面空间代表了全世界所有的概念,Stable Diffusion 从中随机取一个点就能还原出一个图像。


这让我想起我以前做推荐算法的那个时候,其实我们在刻画用户画像上已经能做得很精准了,都不用是大厂,一个普通公司,只要有足够的数据,就能把用户刻画得足够好。


现在最棘手的是,当我圈出了用户所有的喜好,但我试图在内容库中去做匹配时,却没有足够多适合的内容推荐给他。


因为内容的供给目前是非常稀疏的。首先它不精准,其次它的供给有限,第一个是最靠近的,后面就越靠越远。


但当你理解透了 Stable Diffusion 的底层原理,你再回过头来想这件事,你会发现未来充满想象——我无需在内容库中预先备好内容,我只要描绘出来你喜欢什么,之后在你喜欢的那个空间里,我就能给他提供一个人一辈子所能消耗的无限的内容供给。因为空间是可以无限展开的,其中的每一个微小的点都能被 Stable Diffusion 还原成一张图像、一段视频,或者是任何你喜欢的形式。



如果你不理解它的底层原理,那你是没有办法去重新思考搜索、推荐,以及上一代我们所做的东西的。所以理解技术原理非常重要。


第二和第三个方面都是关于产品经理应该怎么学 AI 的,核心就两个点:坚持读 paper 和自己多动手。


读 paper 还是非常重要的。AI 还处在很早期的发展阶段,我当时总结过 Stable Diffusion 的发展历史,整个时间线看下来也就只有 3 年的时间,所以基本上就是那八九篇经典的 paper。全部读完然后串在一起,整个原理你就了解了。


可能再过 5~10 年,当很多事情变成常识了以后,懂不懂原理区别不大。但在当下来说,读 paper 是能带来极大的信息增量的。


曲凯:你读是精读吗?


Hidecloud:我会把 paper 分成两大类。


一类是范式型创新,另一类是雕花型创新。雕花型的我一般就快读,只看其中的亮点,看它在雕什么花,通过什么方法、提升了什么点,范式型创新我都是会细读的。


我现在一天基本上读两三篇左右。如果看到一篇论文有很多亮点,就很有那种精神上的爽感。


读 paper 还有一个好处,它真的能帮你在产品设计和技术改造上带来直接的收益。


比如上次我读到的一篇,它里面提到了六七个不同的优化点,我一看,靠,这个点我们可以直接拿来用,那个点我们也可以拿来用。其实 paper 并没有那么神秘,里面的很多优化点也并不都是算法上的,而就是传统互联网产品工程上的一些优化设计,怎么做扩展、怎么用空间换时间、内存换速度等。


第三个方面是一定要自己多动手。


就算你完全不会写代码,像 Hugging Face 上的 demo、paper 里的 demo、GitHub 里的小项目,很多也都是可以直接体验的,你就尽可能都去体验一遍。


体验分为很多种,最简单的就是在本机上跑 demo。要么就是你 Windows 本机有个 Nvidia 显卡,要么你在 Mac 上面,比如你只要是 M 系列的芯片,然后有个 32G 的内存,绝大部分的模型都能跑得起来,7B、13B 的版本是完全没问题的。


这种实际的动手体验其实是找感觉的一部分,因为当你只是去看别人的讲解、公众号的文章,你自己是没有那种很实际的体感的。


我记得我第一次在本地把大语言模型跑起来的时候,跑起来的那一下,就是你看到自己的这个电脑开始吐字的时候,那种感受非常不一样的。


曲凯:Hello World 的那种感觉?


Hidecloud:对,非常震撼,会刺激你产生非常多对产品的想象。


另外如果你稍微具备一点点代码能力,你就可以多去做一些小实验,去满足一些自己的想法。整个过程你能 get 到其实模型的运营并没有想象中那么简单,但中间的很多环节,都是有潜在的产品机会的。


比如我在调配模型的时候,突然发现这个模型出来的结果很有趣,但普通用户不能直接用,因为这中间涉及到非常多的数据预处理环节。比如给用户做声音克隆,中间有七八步的声音预处理,那普通用户根本用不了。但这就是产品机会,你可以帮他把数据预处理环节压缩成一个训练过程,直接给用户 deliver 最终的结果。


如果你没有自己去实际体验,首先你感受不到最终结果出来的那奇妙的一刻,其次你也根本不知道要做的和最终的结果之间有哪些步骤、哪些障碍。


所以多体验 demo、多 build,培养的是你整体的认知,以及让你去思考在产品、工程上还有哪些机会。


AI 行业还是太早期了,你做一点微小的工作,都能给你带来非常大的回报,ROI 很高的。


AI 时代,产品与技术的配合会发生哪些变化?


曲凯:AI 时代的产品经理,跟技术侧到底该怎么合作?


Hidecloud:像我们在研究文生图的时候,就发现了一个新的产研配合范式。


在 Stable Diffusion 生态里有两个非常出名的 WebUI,一个是 AUTOMATIC1111,另一个是 ComfyUI。我主要在用 ComfyUI 工作。它可以简单理解为由大量的 node 节点组成的 workflow。它的 input 可以是一段文字,也可以是一张图,output 通常是一张图,所以只需要根据需求搭建出 workflow,便可将其直接导出为 API。


这就和之前的开发方式截然不同。


以前的开发方式是产品经理先大致梳理出业务流程和预期结果,再和负责模型、算法的工程师去沟通,但这在 AI 时代是非常不现实的。


首先因为技术本身更新太快,其次在生产过程中有很多参数和细节是需要去调整的。所以如果还是按以前的开发方式,产品经理和工程师之间 back and forth 的沟通就太长了。


但现在有了 ComfyUI,我可以自己改 config,比如这个效果不好,我可以立马改个参数重新跑,这个反馈基本上是实时的。


以前做偏后端的业务逻辑功能的产品经理,过度依赖于后端公司去实现,而现在可能就是通过搭建一个 workflow,一个 pipeline,就解决了。


曲凯:所以你觉得以后产研配合会变成什么样子?


Hidecloud:以前的产品经理之所以依赖工程师,是因为有很多业务逻辑必须通过代码语言去实现。而现在来看,至少可以通过某些工具,将自然语言直接转变为 workflow 的形式。


甚至,未来大模型可以直接把自然语言转变成业务逻辑的抽象表达,可能是一些可视化的 pipeline,也可能是另外一种标记型的语言。


所以以后的业务逻辑部分,可能会完全由 PM 和运营自己搞定,工程团队会更关注如何做并发、做性能、做扩展等更后端的工作。


曲凯:现在有人说 AI 时代一定得是懂技术的产品经理,你怎么看?


Hidecloud:我觉得这是一个阶段性的机会。在这两年时间里,很多 best practice 还没有变成行业常识,你比别人先理解它,你就有优势。但也许两三年之后,所有这些都变成常识了,那到时候也许也不一定非要懂技术。


曲凯:招聘上呢,你们大概喜欢招什么样的人?


Hidecloud:很难说,因为样本太小了,所以现在是聊到合适的就 ok。


但大体上首先要对 AI 有热情,跟你聊到一些常见的 AI 产品,你得用过,有一些对这些产品的观察和思考。


不过即便是这点要求,在面试过程中我们发现也很难达到。像我们用 Perplexity, ChatGPT 等,不管是在 prompt engineering 还是在提问的形式上,都能总结出很多小技巧。但在面试中,我会发现大家的整个体验深度还是非常浅的。比如我就问一下你有没有创建过自己的 GPTs,可能 10 个人我能刷掉 9 个,大家还是不太愿意动手,只喜欢看别人输出,但你自己一动手,那个信息量比你看 10 篇文章都大。


曲凯:最后,all in AI 了大半年,现在感受怎么样?仍然觉得是塞班之后最大的机会吗?


Hidecloud:我现在其实信心更足,这个确实没有看错,真的就是移动互联网之后的第二次大机会。


本文来自微信公众号:42章经(ID:myfortytwo),作者:曲凯