Google对轰OpenAI：喊了121次AI，台下观众都快睡着了 - 葱头胖友圈

昨天 OpenAI 发布了 ChatGPT-4o 后，压力就给到了 Google I/O ，仿佛 Google 无论如何也摆脱不了“AI 界的汪峰”这一称号。

而 Google 则通过近 2 个小时的发布会，提了 121 次 AI ，推出了十余种新品及升级，可谓“量大管饱”，火力全面覆盖，但给人的惊喜却并不多。

我们先给大家一次性总结这场发布会的亮点，更多功能解析请接着往下看。‍

发布会要点：

Google Search AI：发布了 AI Overviews，加强版 AI 搜索概要功能，多步推理能力上架。
Gemini 大模型：Gemini 1.5 Flash（100 万上下文）；Gemini Pro（200 万上下文）。
Gemma 大模型：发布开源多模态大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace：用 Gemini 的能力和 Side Panel 的形式，将 Google 系列产品串在一起。
Gemini App：手机版的 Gemini 应用程序，即将支持和 AI 视频对话，近几周发布。
Project Astra：最新的多模态 AI 项目，包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。

做搜索起家，用搜索王炸

Google Search 是 Google 最大的投资和创新领域之一，更是它们的创始产品。

图/Google I/O

25 年前，Google 开启了搜索功能，昨晚 Google 再次拓展了搜索的边界。

简单来说，有了 AIGC 的 Google Search，可以做到更多事情：无论你在想什么，无论你需要完成什么，只要问问（它），Google Search 就能找到。

而 Google Search 的一切进化，都是建立在专为其定制的 Gemini 模型上。

Google 在发布会上介绍，“与众不同”的 Google Search，主要有三个独特的优势：

Google 的实时信息包括超过一万亿个关于人、地点和事物的事实
名列前茅的产品，和最好的网络服务之一
Gemini 的力量

把将这三件事结合在一起，就解锁了 Google 在搜索领域的全新能力。

第一个新功能是 AI Review，用户可以通过在搜索结果的顶部，获取由 AI 大模型生成的摘要，以此简化整个搜索过程，让复杂问题的检索过程，变得简单。

图/Google I/O

Google 称，到今年年底，将有超过十亿人使用 Google Search 中的 AI Review 功能，而且 Google 宣称，这也将会是其搜索引擎 25 年以来最大的更新之一。

Multi-step reasoning 是 Google Search 中的另一个重磅功能。

图/Google I/O

通过全新的多步推理，以后我们做一些生活、工作和出行的计划，会变得非常简单。

比如你可以通过搜索栏来找到“附近最好的瑜伽馆”，随后附近所有关于瑜伽馆的评价评分、课程推荐、距离等重要信息，都会被分类成块，十分清楚地在搜索结果中显示。

图/Google I/O

依靠 Google 自有的庞大数据库，AI 在搜索过程当中可以调用最新、最全的高质量信息，所以搜索结果的准确性和可信性也就有了更多的保障。

目前，Google 在全球包含了超过 2.5 亿个地点，并实时更新，当中还包括评分、评论、营业时间等重要信息。

Planning in Search 是另一个帮你减少负担的更新。

图/Google I/O

比如你现在正在重新调整膳食结构、从头安排饮食计划，不想在早餐、午餐和晚餐时吃通心粉和奶酪。

直接把需求抛给搜索框，Google Search 就能还给你一份按照要求，且合理安排的全新一周食谱。

图/Google I/O

而且，你还可以随时改变条件和细节，搜索的结果也会根据最新的提示实时更新。

如果说上述功能，我们已经在其他公司的产品中见过，甚至用过，那 Ask with Video ，一定会给你一些惊喜。

生活当中有很多物件，都有着各自的专属名称，有些器械出现一些小问题时，也都有着对应的修理方式。但很多时候只有专业人士才能叫得出，也只有他们能“对症下药”。

现在通过 Google Search 的 Ask with Video，每个人都能被称为专家，它相当于一本装在手机里的百科全书。

图/Google I/O

唱片的零部件不起作用了不知道从何下手，相机的快门突然失灵......以前可能要大费周折地寄回厂家售后，但现在用 Google 设备的镜头拍下问题所在，Google Search 就能根据你所遇到的问题初步诊断，一些小故障还能当场给出解决方案。

在发布会的实时演示里，AI 还把整个修理步骤一一列出，按照屏幕上的指示，演示者很快就能解决小麻烦。

图/Google I/O

这个功能，是通过 AI 逐帧分解视频，把每一帧的关键信息导入 Gemini 的长触点窗口挨个分析，并梳理网络中相关的文章、论坛、视频等，从中找到见解，以此实现了 Ask with Video 的智能建议。

比起传统的文字输入，视频最大的好处在于，我们和 AI 的交互过程变得更加直观，用“这里”“这个”等模糊的词语，也能使大模型知道我们指代的到底是什么。

图/Google I/O

Google 称，这些最新的 AI 功能，将会在未来几周内于实验室功能推出，这也意味着更强大的 Google Search 离落地已经不远了。

后续版本中，它甚至还将能基于页面中视频的自动字幕来寻找答案，不知道会不会抢了那些“1 分钟看完 XX 电影”博主的饭碗。

图·歌·片，瞄着 OpenAI 打

如果说前两天的 GPT-4o 是 AI 再一次给世界带来了一点震撼，那昨晚 Google 官宣的 Project Astra 则是震撼的延续。

Project Astra 是 GoogleMind 的原型——一个通用人工智能助手。

图/Google I/O

和 GPT-4o 的使用效果类似，用户可以通过它和 AI 实时对话，以及视频聊天。

发布会的演示可以很好地表现这个新功能，工作人员在演示视频中将手机镜头对准身边的物品，并向 Project Astra 提出一些疑问，它几乎能做到零延时准确回答。

例如 Project Astra 能说出音响上半部分的是高音喇叭，对电脑屏幕上显示的代码也能轻松识别其具体作用。

Google 称：“我们的新项目专注于构建一个未来的人工智能助手，它可以在日常生活中真正提供帮助。”

基于更强大的 AI 性能，Google 在 I/O 上还宣布了另外三个实用功能，它们分别在“图像”“音乐”“视频”领域，体现着先进技术的“未来感”。

Imagen 3 是 Google 发布的最新的图像生成模型。

图/Google I/O

它可以更加理解我们的提示词，并以此创建更加逼真的图像。

发布会上展示的“狼”的生成图片，就是 Imagen 3 在一段叙述中，准确提取了 8 个细节信息，并且在图片中都有体现。

图/Google I/O

不难发现，生成图片不仅细节准确，而且十分逼真。

Imagen 3 还能应对一些更加抽象的图片创作，例如根据“彩虹色”“羽毛组成的 light”“黑色背景”的提示，生成的创意图片。

图/Google I/O

就像是它很清楚你想要什么。

发言人甚至在发布会上开玩笑式地炫耀：“你可以用它来数别人脸上的胡须。”

在音乐生成方面，Google 也有了新的突破。

Music AI Sandbox 是最新推出的音乐生成模型，Google 这次在 I/O 现场还请来了 Marc Rebillet 坐镇分享。

图/Google I/O

根据艺人创作的一小段音乐 demo，Music AI Sandbox 能在此基础上拓展延长，还可以进一步按照用户输入的提示词，如音乐风格和种类等，进行乐曲的二度创作。

Google 称，它们和 YouTube 一起构建了 Music AI Sandbox：“这是一套专业的 AI 音乐工具，可以从头开始创建新的乐器部分，在轨道之间转换风格等，以帮助我们设计和测试它们。”

另一个实用模型名为 Veo，专注于生成视频。

图/Google I/O

用户只需输入相关的文本、图像或视频提示，Veo 就能创建高质量的 1080p 规格的视频，时长也达到了 60 秒之久。

它能以不同的视觉和电影风格捕捉指令中的详细信息。

图/Google I/O

例如，我们可以在提示中输入事物、横向或延时的航拍照片，并使用其他提示进一步编辑视频。

一直以来，视频生成 AI “只在理论上成立”，其实有诸多阻碍，其中走向“能用”的最大门槛是：视频生成时间只有短短几秒，一般只能在一两个动作里反复横跳。

图/Google I/O

所以 Sora 发布之初才会引起广泛的讨论，而从昨晚开始，Google 的 Veo 也成了大家重点关注的对象，从照片写实主义到超现实主义和动画，大部分的影视风格，它都能处理。

除了 Project Astra 以外，Google 还为我们提供了一个可私人定制的 Gemini ——Gems。

Google 表示，它能在保留指定特征的情况下完成任务，成为千人千面的私人助手，用户可以通过调整定位，使其成为瑜伽好友、虚拟的流行人物、健身伙伴、创意写作指导甚至是微积分导师等，都不在话下。

图/Google I/O

Gemini 狂卷长文本，Gemini 家族再添新成员

Gemini 项目自曝光以来，一直备受关注。起初也曾存在一定争议，但后来也凭借自身实力挽回了口碑，而今也越来越成熟。

据皮查伊介绍，目前有超过 150 万开发人员使用 Gemini 模型，用户数量已经达到 20 亿，如今皮查伊再提“Gemini 时代”，目标是将其集成到所有产品中，为用户带来全新体验，也为创造者、开发者、创业公司创造新的机会。

图/Google I/O

目前最新的 Gemini 1.5 Pro 支持 100 万 token 文本量，今年晚些时候据称这个数字将会达到 200 万，能够同时处理 2 小时的视频、22 小时的音频、超过 60000 行代码或超过 140 万个单词。

此外，大会还宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced，据称它可以处理“多个大型文档，总计最多 1500 页，或汇总 100 封电子邮件”，还支持 35 多种语言和 150 多个国家 / 地区。

不得不说，在文本量方面，Gemini 确实很卷，朝着“将任何输入转为任何输出”的目标迈出了一大步。

安全永远是重中之重

自 AI 诞生之初以来，关于如何辨别 AI 生成内容的争论就一直没有停止。Google 的对策是通过 SynthID，为 AI 生成的图像和音频添加不可见的水印，使其更易于区分。

未来 Google 将会把这一范围推广到文本及视频中，并在接下来的几个月里，通过更新生成式 AI 工具包、开源 SynthID 文本水印，帮助更多开发人员更轻松地负责任地构建 AI。

图/Google I/O

Gemini 融入其中后，Android 会在通话过程中，检测到可疑活动时发出警告，例如被要求提供社会安全号码和银行信息，属于是直接把“反诈中心”装手机上了。

还有无障碍功能 TalkBack 也将通过 Gemini Nano 增强，图像描述将更加清晰和丰富，帮助视力不佳的用户通过语音反馈更好地操作手机，体现出 Google 一贯的人文关怀。

图/Google I/O

而对于 Google 昨晚的表现，英伟达 NVIDIA 研究经理 Jim Fan 的评价：十分中肯。

Google 新发布的模型似乎是多模态输入，但不是多模态输出的 Imagen3 和 Music AI Sandbox 仍然作为独立组件与 Gemini 分离，但将所有模态 I/O 原生合并是不可避免的未来。

它可以执行任务，如“使用更机器人化的声音”“编辑这幅图像”“生成一致的漫画条带”。

而且还不会在模态边界上丢失信息，例如情感和背景声音，全新模型打开了新的上下文能力，用户也能通过少量示例教导模型，并以新颖的方式结合不同的意义。

GPT-4o 并不完美，但它正确地掌握了形式因素，用安德烈的 LLM 视为操作系统的比喻来说：我们需要模型本地支持尽可能多的文件扩展名。

Google 做对了一件事：他们终于努力将人工智能整合到搜索框中。

Gemini 不必是最好的那一个，但却可以成为最广泛使用的一个。

本文来自微信公众号：APPSO （ID：appsolution），作者：凡博、王萌