源起


ChatGPT-3.5 发布于 2023 年 3 月 1 日,短短一年内,AI 已经变成几乎所有科技公司都关注的话题,并且涌现了不少大模型。


我在过去曾经做过很多轮基础的评测,说是评测,更多还是试用,比如:字节的豆包,与文心一言、通义千问、ChatGPT 在 9 个问题上的对比。


如今已经是 2024 年,我很好奇如今国产的大模型进展如何了,翻遍了中文互联网,往往都是 PR 稿,很少有系统性的评价。


要说评测,自然也有一些,比如 SuperCLUE、C-Eval,还有海外更有公信力的 MMLU,以及 FlagEval、OpenCompass 等等。包括真格基金的 Z-bench 也是很有意思的评测集。


然而这些评测集都有共性的问题,主要两点:


第一,检验的标准更像“应试题”,比如参考的都是各种数学、物理的考试题目,而逻辑题很像公务员考试题。


有的评测集喜欢用“父母结婚为什么没邀请我”来测试大模型的“聪明”程度,包括我之前也喜欢问这样脑筋急转弯的题。可各位细想,这种问题连普通人都得反应一会儿的,对 AI 来说哪怕一时没想明白,又有什么问题?


这些评测自然有其意义,不过都不存在真正的“应用题”。就像学校里的计算机学科学的东西,跟互联网公司里写代码所需要的东西,压根就不是一回事儿。


所以我很好奇:能不能从可用性的角度去评测一下?这是我作为产品经理更擅长的。


第二,固定题目的题库,参赛选手是可以刷的。


这是延伸出来的问题,既然都是固定题目,那就可以定向去解决这些题目。反正 AI 大模型是黑盒,且不说投喂给 AI 对应的模拟题库了,哪怕在模型里写几段规则,诸如遇到“父母结婚为什么没邀请我”的问题就怎么怎么回答,也是神不知鬼不觉的。


所以题目应该是随机出的,不应该是固定的。


总的来说,我就想用自己的办法,做一轮评测,亲自感受下国产大模型的进展。


方法


既然说了是用户视角的、面向可用性的,那我首先就认为,综合评测没有意义。


例如,大模型 A 的创作能力很差,总结能力极好,而大模型 B 的创作和总结能力都均衡,于是就让大模型 B 比大模型 A 评价更好、推荐用户都去使用吗?当然不合理。


未来的 AI 产品一定是面向场景的,那自然擅长某些任务的大模型,就该按照垂直领域来评价和推荐。而且不同的场景的评价标准应该是不一样的,举个例子,知识类问题的“容错率”就跟创作型问题的“容错率”不同,如果是询问一个很精确的新闻里的数字,AI 胡说八道,而用户信以为真,就非常麻烦;如果是创作内容时有一些不严谨的地方,则可以在后续再修正。这是不同的场景。


所以这是方法里的第一步:分为四大场景。这四个场景都是我亲身的工作生活中所需的,完全按主观的需求出发来定义的:


博学家。代表的是一个熟悉各种历史、社会、科学等知识的百晓生一样的角色。我有问题可以问他,不用去翻书,不用去打听。定义这种场景的评价标准就是:提供信息量,并且准确,严禁出错。


通讯员。代表的是能够帮助我们搜集互联网上的信息的角色,跟博学家最大的区别是,能够获悉最新的新闻、资讯。同样的,也是要提供准确的信息,不能出错。


书记员。代表的是可以帮助我们总结内容、整理摘要的角色。重点不仅在准确率,还在于召回率——能不能真正呈现更完整的内容总结,总结的是不是覆盖完全,是不是容易理解,帮助我们筛选判断。


创作者。代表的是能直接上手帮我们写初稿的角色。这个容易理解,重点是写的是否有启发、是否可以直接使用。


根据这些场景,我罗列了完全不同的问题,并且对问题的难易程度,非常主观地给出了评分标准。具体如下:


  • 博学家


    • 紫禁城是谁建造的?(2)


    • 刘备的妻子是谁?(2)


    • 内阁首辅与宰相的区别是什么?(3)


    • 萨特和波伏娃的理论有哪些核心矛盾?(3)


    • 计算机采用的冯诺依曼结构的优势是什么?(3)


  • 通讯员


    • 明天去广州,应该穿什么衣服?(2)


    • 你知道播客“半拿铁”吗?(2)


    • 你知道原叶茶“三五杯”吗?(2)


    • 《年会不能停》这部电影里,石老板饰演的是哪个角色?(2)


    • 俄乌冲突目前的进展是怎样的?(4)


  • 书记员


    • 分析亚马逊收入组成的【图片】(3)


    • 总结一下这篇文章的中心思想(裁员还会继续,直到回归均值)(3)


    • 总结一下这本书的重点:《穷爸爸富爸爸》(3)


    • 这本书里提到的财务自由的方式主要是?(3)


  • 创作者


    • 写一首歌颂煎包的七言绝句(3)


    • 小红书的风格是很吸引眼球的标题、每个段落都加emoji,最后再加几个tag。请用小红书的风格推荐一部电影《奥本海默》(3)


    • 我的播客邀请到了马斯克,帮我列一个跟他对谈的播客提纲(3)


评价标准再次强调,就是纯主观、带有非常充足个人偏见的评价标准。因为大模型不是用来做题的,就是给我们用的,那对我个人而言有没有用,我自己想给一个标准。


这次我评测的大模型确实下工夫了,一共是 12 家:


  • ChatGPT 4(OpenAI)

  • 通义千问(阿里)

  • 文心一言(百度)

  • Kimi Chat(MoonShot)

  • 智谱清言

  • 豆包(字节跳动)

  • Bard(Google)

  • 百川(王小川)

  • Claude(Anthropic)

  • 混元(腾讯)

  • 讯飞星火

  • 雅意


其中不仅有主流大厂的几个产品,也加入了最近试用的一些独立团队做的,以及国外知名的几家。


另外的一些补充说明:


  • 测试时间为 2024 年 1 月 3 日下午;


  • 使用的都是用户界面的产品,并不是 API,可能有一些模型未必是最新的;


  • 在“通讯员”的评测中,用 New Bing 代替了 ChatGPT。


我们来看下评测的过程和结果。


原始数据在这里,文章不展开放了,太多。有兴趣的朋友自行去查阅。


一、博学家


在 Q1“紫禁城是谁建造的?”这个问题下,所有的 AI 产品都给出了基础的正确答案,即朱棣。这样的回答都给了基础分。而如果能提到相关的负责人(泰宁候陈珪、工部侍郎吴中、刑部侍郎张思恭)或者主要的工匠(蒯祥、杨青)等,会额外再得一分。


例如这是获得满分 2 分的讯飞星火的答案:


紫禁城的建设始于明永乐四年(1406年),至十八年(1420年)基本建成,历时14年。这座壮丽的皇家宫殿的建设涉及了众多的参与者,包括农民、卫军以及全国著名的工匠等,他们共同参与了这一伟大的工程。其中,蒯祥被记载为紫禁城的重要设计师与建造者之一。


紫禁城位于北京中轴线的中心,占地面积约72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,构成了一片宏大的建筑群。这座宏伟的木构建筑群是历史的产物,反映了那个时代人们高超的建筑技艺和智慧。


然而,值得注意的是,关于紫禁城的设计者和建设者的详细资料并不丰富。在那个时代,工匠的社会地位不高,因此虽然参与建设的人力众多,但留下姓名的却寥寥无几。尽管如此,紫禁城的壮丽壮观无疑证明了无数人的辛勤努力和卓越才华的结晶。


在 Q2“刘备的妻子是谁?”问题下,回答就有意思得多了。虽说所有 AI 产品都煞有其事给出了回答,但如果对真实答案完全不了解的话,很可能会被误导。这里面有多个 AI 产品的回答我给了 0 分,分别是文心一言、Bard、Claude、讯飞星火和雅意。


Bard 和 Claude 算是洋产品,情有可原,文心一言就有点说不过去了,这是它回答的一部分:


吴皇后,本名吴苋,是蜀汉后主刘禅的生母,也是刘备的最后一位正妻。她性情温顺,相貌迷人,是刘备所有妻子中最幸福的一位。


让刘禅认错妈,这是严重的错误。想来是拼凑资料所致。


在 Q3“内阁首辅与宰相的区别是什么?”问题下,又回到了每个 AI 产品都有基础分数,但想说得完整、说得清楚,并不容易。这一部分没有 0 分,满分的也不多,是 ChatGPT、通义千问、智谱清言和 Bard。


我比较认可的是通义千问这个回答。当然也不排除是参考的资料很好,不是自己总结的:


内阁首辅和宰相虽然在一定程度上都涉及对国家政务的处理,但两者在中国历史上的权力、地位与制度背景有着显著区别:


宰相:


宰相是中国古代封建社会中最高行政长官的统称,自秦汉时期至明朝初年(明太祖废丞相之前),宰相一职或以丞相、尚书令、中书令、侍中等不同名称存在。


宰相拥有极高的决策权,通常负责协助皇帝总揽朝政,管理全国政务,有的时期宰相甚至能够左右国家政策走向,具有相当大的实权。


内阁首辅:


明朝建立后,朱元璋鉴于前朝丞相专权的历史教训,废除了宰相制度,代之以内阁制度。内阁起初仅为皇帝的咨询机构,成员多由翰林院官员兼职担任,称为内阁大学士。


内阁首辅是内阁中地位最高的官员,尽管有时在实际操作中可能权倾一时,如张居正,但按照制度设计,内阁首辅并无法定的行政决策权和统率百官的职权。


内阁首辅的主要职责是主持内阁会议,参与重要政务的商议,并通过“票拟”将内阁的意见写在奏折上供皇帝批阅,而最终决定权仍握在皇帝手中。且明代宦官集团的权力很大,内阁首辅往往受到司礼监掌印太监行使的“批红”权的牵制,进一步削弱了其实际权力。


综上所述,宰相和内阁首辅的最大区别在于,宰相是正式的政府首脑,有明确的法定职权和较高的政治地位;而内阁首辅更多的是一个高级顾问的角色,其权力大小很大程度上取决于皇帝的信任和授权,以及当时的政治环境,本身不具备宰相那样的法定行政领导地位。


在 Q4“萨特和波伏娃的理论有哪些核心矛盾?”问题下,几乎都得了高分,信息量对我而言是足够的。不过我自己也还在学习中,未必能看出其中的错漏,顺便也欢迎大家去看原始回答数据帮我捉虫。


值得一提的是,豆包在这一环节突然拉跨,一句话都说不出来,得到了唯一的一个零蛋。


分享 Kimi Chat 的满分回答:


让-保罗·萨特(Jean-Paul Sartre)和西蒙娜·德·波伏娃(Simone de Beauvoir)是20世纪法国存在主义哲学和女权主义思想的重要代表人物。他们的思想在很多方面相互影响,但也存在一些核心矛盾和差异。


对自由的理解:萨特强调个体的绝对自由和选择的重要性,认为人的存在先于本质,即人是通过自己的选择来定义自己的。而波伏娃在她的著作《第二性》中,虽然也强调女性自由的重要性,但她更关注社会结构和文化传统对个体自由的限制,尤其是对女性自由的限制。


性别角色:波伏娃在《第二性》中提出了“女性是被构建的”这一观点,强调性别角色是社会文化构建的结果,而非生物决定。萨特虽然也支持性别平等,但他的哲学中并没有像波伏娃那样深入探讨性别问题。


对关系的看法:萨特认为人与人的关系本质上是冲突的,因为每个人都是自由的主体,无法完全理解或控制另一个人。而波伏娃则认为,尽管存在冲突,但人与人之间仍然可以建立有意义的关系,尤其是在爱情和亲密关系中。


对社会责任的态度:萨特强调个体的道德责任和对社会不公的反抗,而波伏娃则更加关注社会结构对个体的影响,以及如何通过社会改革来实现性别平等。


对死亡的看法:萨特认为死亡是自由的终结,是个体存在的终结,而波伏娃则在她的作品中探讨了死亡对个体存在的意义,以及如何在有限的生命中寻求价值和意义。


这些矛盾和差异反映了两位思想家在性别、社会结构、人际关系和死亡等主题上的不同视角和理论取向。尽管他们在某些方面存在分歧,但他们的思想都对后世产生了深远的影响。


Q5 的问题是“计算机采用的冯诺依曼结构的优势是什么?”,也属于高分比较多的题目,回答都还不错。就不举例了。只有 Bard 得到了零分。


从这 5 个题目,我们得到的结果如下:



在中文世界里,最值得推荐的 2023 年度“AI 博学家”,就是这三位:





二、通讯员


接下来就是能够搜集资料的通讯员了。是不是有这样一个助理,能帮我们把如今发生的事情都按需求提供上来呢?


Q1 算是经典的生活讯息问题:“明天去广州,应该穿什么衣服?”在这个回答下,已经能够判别哪些 AI 产品明确是没有查阅互联网能力的了,比如文心一言、讯飞星火等。


比较奇怪的是,Kimi Chat 明明可以查看互联网,却没有主动搜集天气信息,反而给出这样的答案:


要确定明天去广州穿什么衣服,首先需要查看广州当地的天气预报。广州位于中国南部,属于亚热带气候,四季分明,温暖湿润,夏季炎热,冬季温暖。


请查看最新的广州天气预报,了解明天的气温、湿度、降雨概率等信息。如果明天气温较高,建议穿着轻薄透气的衣物,如短袖、短裤或裙子,以及舒适的鞋子。如果气温较低或有降雨的可能,可以携带一件薄外套或雨具,以防不时之需。


请注意,由于气候变化和个人舒适度差异,建议您根据最新的天气预报和自己的感觉来选择合适的服装。


而多个 AI 产品获得满分 2 分,比如百川:


明天的广州天气为多云,最低气温12°C,最高气温22°C,风向为北风1级,湿度为46%。因此,建议您穿着长袖衬衫或薄毛衣,外加一件外套,以应对气温的变化。同时,由于风力较小,湿度适中,您可能会感到舒适。请注意,这些建议仅供参考,具体着装应根据您的个人需求和舒适度进行调整。


Q2 的问题是:你知道播客“半拿铁”吗?


“半拿铁”的创建时间是 2023 年上半年,互联网上出现了一些资讯信息是在下半年。所以这很依赖 AI 产品的两个能力:能不能查询近期的信息;能不能查到这种小众的信息。


结果很出人意料,但凡能联网的 AI 产品,都给出了正确答案。


最惊奇的是通义千问的回答,甚至把最新一期的主题讲了出来,而最新一期的发布仅在 6 天前:


是的,播客“半拿铁”是一档以商业故事为主题的中文播客节目,由刘飞和潇磊共同主持。节目中涉及的话题广泛,不仅讲述科技巨头如亚马逊及其创始人贝佐斯的故事,还涵盖了商业历史、企业兴衰以及商业模式等各类商业话题。该播客以其独特的叙事风格——类似相声般的插科打诨方式来科普商业知识,深受听众喜爱,在喜马拉雅等平台上拥有较高的播放量,并且在 2023 年时登上了相关播客排行榜。


此外,“半拿铁”还与“没品商店”合作推出过周边产品,例如T恤等,进一步扩大了其品牌影响力。节目的更新保持着活跃状态,不断吸引新的订阅者并维系着现有的忠实听众群体。


Q3 的问题更小众,互联网上的讯息不多:你知道原叶茶“三五杯”吗?


由于信息比较少,就开始出现瞎编乱造的情况了,比如New Bing(ChatGPT)的回答,编造了名字的来源:


是的,“三五杯”是一个原叶茶品牌,由刘飞等人共同创立。该品牌的名字来源于中国古代文化中的“三五制”,寓意着“天人合一”的哲学思想。


或者百川的回答,说错了公司:


是的,我知道原叶茶“三五杯”。这是由厦门三五茶业有限公司生产的一款原叶茶产品。“三五杯”强调原叶茶的淡雅风味,茶叶的苦涩度也偏低。此外,他们还推出了冷泡茶系列,茶包倒入常温水中,30秒即可饮用,整体的口味协调、有层次感。


还有 Bard 的回答,把我在“半拿铁”的搭档当成了合伙人:


当然知道。三五杯是一家原叶茶品牌,由刘飞和潇磊创立于2022年。三五杯的理念是“让原叶茶更简单”,致力于为消费者提供高品质、便捷的茶叶产品。


对于长尾信息就开始编造,可能是 AI 在作为“通讯员”时面临的比较大的问题。


Q4 属于比较过分的问题了,更加小众:“《年会不能停》这部电影里,石老板饰演的是哪个角色?”但反而得到了意想不到的结果。有 6 个 AI 产品居然准确答对了。


比如智谱清言的回答:


根据您提供的信息,电影《年会不能停》中,石老板饰演的角色是部门长乙。这部电影是一部喜剧片,讲述了钳工胡建林阴差阳错被调入集团总部成为金领,在集团年会上揭露了工厂贪腐的高管的故事。石老板在影片中的角色可能是与胡建林有关的职场角色,但具体的角色细节和剧情发展需要通过观看电影来了解。


而有几个 AI 产品答对了一半,却编造了另一半,也属于这种长尾、小众的信息,会随意加料的问题。


比如 Bard 的回答,甚至编造了几句不存在的台词:


在电影《年会不能停》中,石老板饰演的是部门长乙。以下是部门长乙在电影中的部分台词:


“年会是企业文化的重要组成部分,不能轻易取消。”


“我认为,年会是员工们展示自己才华、团结协作的舞台。”


“我希望公司能够重新举办年会,让员工们有一个愉快的假期。”


部门长乙这个角色是一个非常有代表性的职场人物。他身上既有优点,也有缺点。他是一个值得我们思考和反思的角色。


Q5 “俄乌冲突目前的进展是怎样的?”是我作为 AI 产品的用户最迫切需要的一种问题,我是知道目前的 AI 很难完成的,但依然想试一试,并且给出了 4 分满分的评价范围。不过结果没有超出预期,最高分也只给到 1 分。


其中有不少 AI 产品表示问题敏感,都拒绝回答,而回答的几个,也都在说片儿汤话,并没有给出有参考价值的答案。


混元(腾讯)的回答很有代表性:


俄乌冲突自2022年2月24日爆发以来,至今已经持续了超过672天。在这场冲突中,双方都付出了巨大的代价。以下是关于俄乌冲突最新进展的概述:


偷袭与报复:近期,乌克兰军队对克里米亚的费奥多西亚地区发动空中打击,成功摧毁俄黑海舰队“新切尔卡斯克”号登陆舰。作为回应,俄罗斯对乌克兰境内多个目标发动大规模空袭,包括基辅、哈尔科夫、第聂伯罗和敖德萨州等地。


前线战场:俄军在战场上取得重要胜利,主动出击歼灭乌军有生力量。例如,俄军在马林卡战役中取得胜利,进一步削弱了乌军前线作战能力。


地缘政治:俄乌冲突对全球政治格局产生重要影响。例如,美国向乌克兰提供军事援助,包括大杀伤力集束炸弹,引发国际社会的关注和担忧。


冲突损失:截至目前,冲突已造成大量人员伤亡和财产损失。据报道,超过400名乌克兰运动员在冲突中去世。


总之,俄乌冲突目前仍在持续,双方在前线和后方展开激烈战斗。在这场冲突中,无辜平民的生命和财产遭受巨大损失,国际社会应继续致力于通过外交途径解决争端,早日实现和平。


这个问题的回答是我整个评测中最不满意的。从这个角度看,AI 真正成为我们信息的助理,还道阻且长。可以说这个题,大家都拿不到什么分。


这是整体的评分结果:



那么在“通讯员”方面,推荐大家使用的 AI 产品就是:




不过说句实话,目前在这个需求场景上,大家都做得不够。哪怕这两位,也都是只对了三道题的。能够得最高分,有点运气的成分。


三、书记员


书记员就完成很简单的一件事:总结。一张图有什么内容、一篇文章讲了什么、一本书的重点是什么。只考察这几条。


Q1 是解读这一张亚马逊的收入组成图,略有难度:



对于图片解读,很多 AI 产品本身并不支持,就只好 0 分。而支持的 AI 产品里,你大爷还是你大爷,ChatGPT 稳居满分。还有几个虽说可以解读,但出现了非常严重的事实错误,不仔细看都看不出,就只能给 0 分。


比如 Kimi Chat 回答中的一段:


销售和市场(S&M):成本为106亿美元,同比增长6%。一般及行政(G&A):成本为2.6亿美元,同比增长1%。其他营业费用(Other opex):成本为0.2亿美元。


其中 26 亿的 G&A 成本写成了 2.6 亿、其它成本 2 亿写成了 0.2 亿。S&M 的同比增长应该是 1%,写成了 6%。


Q2 是总结这篇文章的中心思想(裁员还会继续,直到回归均值),这个问题是用多种输入方式完成的,有的 AI 产品支持直接输入链接,有的支持上传 Word 文档,有的则只能直接输入完整文字。


我比较关心的是准确率和召回率,即是不是能完整描述文章里主要的观点。最终的结果看,我给出满分的有 Kimi Chat、Bard 和 Claude。


比如 Bard 的回答如下:


这篇文章的中心思想可以概括为以下几点:


  • 互联网行业的增长已到顶,创新机会减少。

  • 大厂的员工招募本就是非理性的,导致员工成本过高。

  • 大厂员工的能力在别处无法复用。

  • 裁员潮是互联网行业回归均值的表现。

  • 互联网行业的黄金时代已过,互联网人需要重新认知职场和个人选择。


具体来说,文章首先指出,互联网行业的增长已到顶,创新机会减少。这意味着,互联网行业的高速发展时代已经过去,互联网企业需要寻找新的增长点。  


其次,文章指出,大厂的员工招募本就是非理性的,导致员工成本过高。大厂往往会采用“加人”的方式来解决问题,这导致员工成本大幅增加。而这些员工的能力在别处无法复用,因此裁员是必然的。


第三,文章指出,互联网行业的黄金时代已过,互联网人需要重新认知职场和个人选择。互联网人需要意识到,互联网行业的薪酬高并不意味着工作价值高,也需要做好裁员的准备。


最后,文章指出,信息差有的时候是致命的。互联网人需要及时了解行业动态,做好职业规划,才能在变局中立于不败之地。


总而言之,这篇文章对互联网行业的未来发展进行了深入的分析,为互联网人提供了一些有益的思考。  


当然这一题目我自己反思过,不是特别公正,因为像 ChatGPT、通义千问、文心一言等 AI,在追问之下可能会答出更具体的内容,并没有测试更多上下文的内容。这点遗憾,我在 Q4 做了补充的检验。


Q3 “总结一下这本书的重点:《穷爸爸富爸爸》”与 Q2 类似,是做完整一本书的总结。而且为了防止出现一次性回答不太公平的问题,增加了 Q4 :“这本书里提到的财务自由的方式主要是?”


这两道题的限制比较大,多个 AI 产品根本没法上传文档,像 Claude 虽然可以上传,但是超过了大小限制。能够回答的不多,而回答的里面,都还不错。对于追问的 Q4 来说,Kimi Chat 和智谱清言的表现很好,都是满分。


比如智谱清言的回答:


根据文档内容,这本书里提到的财务自由的主要方式包括:


提高财务知识,学习如何管理金钱和投资。例如,了解资产和负债的区别,购买能带来收入的资产等。


谨慎选择朋友,结交有财务知识和成功的朋友。


掌握一种模式,如投资房地产或股票,并从中获得收入。


首先支付自己,不要轻易背上债务。


给你的经纪人优厚的报酬,因为他们能帮你创造财富。


做“印第安给予者”,先付出后得到。


用资产购买奢侈品,而不是用负债。


对英雄的崇拜,学习他们的成功经验。


先予后取,慷慨地给予。


采取行动,不要只停留在思想上。


综上,这本书主要通过提高财务知识和技能,谨慎投资,控制支出,增加收入等方式,来达到财务自由的目的。


这一部分很多 AI 产品都受限制,因此有得分的本来就不多。结果如下:



那么推荐使用的“书记员”产品就是:




不过也要注意,刚刚说的在识图方面有严重错漏的就是 Kimi Chat。所以文档识别可以用 Kimi Chat,识图就还是用 ChatGPT 吧。


四、创作者


这估计是很多朋友都非常关心的,内容创作上能不能帮到我们。这一部分评测较为简单,只做了 3 个问题,因为阅卷太累了...


Q1 是“写一首歌颂煎包的七言绝句”。这个问题除了外来的朋友 Claude 回答的是稀碎,其它的 AI 产品至少能满足“七言”这个要求,就给了基础分。如果没有押韵,肯定是要扣分的。


我最喜欢的两首分别是 ChatGPT 创作的:


煎包香气满街传,金黄酥脆美味鲜。


一口汤汁甜如蜜,回味无穷人欢颜。


和通义千问创作的:


香煎满锅白玉包,油润面皮金黄焦。


馅心醇厚汁液美,人间至味是清早。


它们都算作是满分。可以假装是普通人写的,没有太多破绽了。


Q2 是老问题了,这次换了电影:“小红书的风格是很吸引眼球的标题、每个段落都加emoji,最后再加几个tag。请用小红书的风格推荐一部电影《奥本海默》。”


这个问题几乎都给分了,也有多个满分。唯一的 0 分是 Claude,有大量的错误。


这里可以推荐文心一言的满分回答:


《奥本海默》——天才背后的无尽传奇


天才科学家,传奇一生。在这部电影中,我们看到了奥本海默如何在原子弹的研制中发挥了关键作用。每一个段落都让人热血沸腾,仿佛置身于那个决定历史的重要时刻。


当提及奥本海默,你会想到什么?是那个改变了世界的人,还是那个有着无尽智慧和独特魅力的人?他的一生充满着传奇色彩,令人惊叹。


这部电影用最真实的镜头,展现了奥本海默的生平。从他的成长到他的成就,每一个细节都让人感慨万千。他的才华、他的智慧、他的执着,都深深地打动了我们。


《奥本海默》是一部让你热血沸腾的电影,每一个镜头都充满了力量和情感。它让我们重新认识了这位天才科学家,也让我们对人类的智慧和力量有了更深的认识。


#奥本海默 #传奇人生 #天才科学家 #历史时刻 #电影推荐


Q3 是我工作中很实际的问题:“我的播客邀请到了马斯克,帮我列一个跟他对谈的播客提纲。”这个确实很出乎意料,可能是马斯克的资料足够多,各家的产品回答得都很不错,几乎都给了高分。


也许是这种结构化的内容对于 AI 来说比较容易掌握。这也是唯一一个我真正感受到有启发的创作题目。


这一部分的回答都很长,就不在这展开说了。我们直接看结果。



很神奇,从创作这一部分看,确实还是相对公认较好的三家,拔得头筹。


那么在内容创作这部分,推荐的 AI 产品是:





不过这里也再提醒一下,创作者这里虽然得分普遍偏高,但还是由于预期和标准不同。它们能帮我们撰写初稿、提供一些启发,但是真正能以假乱真帮助创作,还是有很远的路要走。


总结


最后再总结一下几家我推荐的 AI 产品。


  • 博学家:通义千问、智谱清言、Kimi Chat


  • 通讯员:New Bing、讯飞星火


  • 书记员:ChatGPT、Kimi Chat


  • 创作者:ChatGPT、通义千问、文心一言


说几点我体验结束的感想。


1. 国产大模型虽说跟 ChatGPT 的确有很大差距,但比起 2023 年初的体验来说,已经有了很大不同,在一些问题上的回答都很有可用性了。这种发展趋势很乐观,哪怕一直跟 ChatGPT 有差距,也不妨碍我们能接触越来越好用的工具,能在一些场合下用得上。


2. 在具体的场景上,除了通义、文心这种老牌的大模型,也有几家不错的、之前没接触过的产品,使用体验不错,未来在写文章、做播客的稿件时,对我的帮助很大。比如 Kimi Chat、智谱清言、讯飞星火。


3. 作为同样有财力和资源的大厂,腾讯和字节的大模型,至少在我体验的版本上,还有很大的差距,各位可以回顾这四个评测的分数,基本都在下游。这点还是有点遗憾。如果按照大模型是存在先发优势的说法,是要有危机感了。


好了,大概就到这了。再次声明:这篇文章的所有评测都是我非常个人的主观判断,大家完全可以有不同的意见,包括打分的标准。


也很欢迎各位朋友,尤其是产品、技术的朋友,可以在工作和生活中做一做评测,不要用网上流传的脑筋急转弯,而是用自己真正有需求的问题,试一试,感受一下,也可以搞一个自己的榜单。


如今百模大战,又缺乏真正用户视角的评测标准,难免就有浑水摸鱼的。我们多试试,多给具体的主观评价,也反推这些厂商认真琢磨怎么提升体验,而不是去卷那些应试的考题。


各位,下次评测,我们明年再见。


以上评测的产品地址:


ChatGPT:chat.openai.com

通义千问:tongyi.aliyun.com/qianwen

文心一言:yiyan.baidu.com

Kimi Chat:kimi.moonshot.cn/chat

智谱清言:chatglm.cn

豆包:www.doubao.com/chat

Bard:bard.google.com/chat

百川:www.baichuan-ai.com/chat

Claude:claude.ai/chat

腾讯混元:hunyuan.tencent.com/bot/chat

讯飞星火:xinghuo.xfyun.cn/desk

雅意:yayi.wenge.com/chat


本文来自微信公众号:刘言飞语 (ID:liufeinotes),作者:刘飞Lufy