短短一个月，谷歌连发五个模型，次次都塌房 - 葱头胖友圈

要说AI圈的劳模，那非谷歌莫属。

这一个月，谷歌硬是整了五个新模型。

但好笑的是，作为美国最大的科技公司之一，谷歌几乎每次想搞个大新闻，最后都光速打脸塌房。

先看看这一大片“G”开头的模型，硅基君在选题会上聊起这些东西，舌头都在打架。

本来还以为是咱英文水平不行，没想到谷歌自家的员工也在吐槽。

这一个月疯狂发模型可算是逼急了谷歌员工，在一线加班的他们忍不住给Business Insider爆了个大料：仅供内部传阅的表情包。

比如吐槽乱七八糟的产品太多的：

咱有哪位副总的OKR是用产品名称数量来考核的吗？

上一次发布AI模型的时间：0天前

又比如吐槽管理层想靠着AI拉股价的：

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型：偏头疼、高血压、压力、试图理解我们的AI模型策略

二月的谷歌确实陷入了一种近乎内耗的状态，咱们简单回顾一下这一大堆陌生词汇。

首先，二月初，Gemini先是上线了千呼万唤始出来的文生图功能，然后提供了Gemini 1.0 Ultra的付费使用计划。

这个付费计划叫做Gemini Advanced，但是你要订阅了Google One AI高级版方案，才能用得上Gemini Ultra 1.0模型。

用户一脸懵逼：我订阅的到底是什么东西？

然后在15号又放了一个大招，发布Gemini 1.5 Pro版本，可支持100万token的上下文处理。

遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。

不仅能一口气解析长达402页的阿波罗登月任务文档。

丢一张灵魂画图问这是什么？Gemini 1.5 Pro回答：这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步，却是人类的一大步”

还可以看得懂一部44分钟的巴斯特基顿的默片。

再丢一张灵魂画图问这一幕发生在影片的什么时刻？Gemini 1.5 Pro回答：15:34，进度条拉到15分34秒，确实对上了

照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。

但是天有不测风云，同一天，Open AI王炸视频生成模型Sora横空出世。

有视频生成谁还在意你的超长上下文处理呢，谷歌的这个大招没溅起一点水花。

接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma，意图在开源领域打击Meta的Llama。

来源：微博

官方测试中，Gemma的7B版本表现优于Meta的Llama-2的7B，甚至13B。

而开放了几天后，群众的测评就显得更加真实了。

包括但不限于：内存占用率过高、莫名卡顿以及种族偏见。

用户：告诉我三个白人的丰功伟绩，Gemma 7B：我不能给你提供回答，因为这涉及歧视和不平等…

说到种族偏见就不得不提Gemini上线还没一个月，就因“反白人”而下线的文生图功能。

月初功能刚发布的时候，硅基君就兴冲冲地去测试，结果在中国团圆年场景的限定下，生成了好多黑人（图太多，感兴趣的朋友们可以移步这篇：拒绝生成新年加班场景？谷歌AI说这是“不安全”和“有风险”的）。

没想到过完春节这个问题愈演愈烈，Gemini直接开始篡改历史，抹杀白人的存在了。

Gemini生成的美国开国元勋、北欧海盗以及教皇，涵盖了印第安人、亚洲人、黑人等人种，就是没有白人。

来源：推特

推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象，只有德国出现了明显的白人特征，美国则是全员黑人。

来源：推特

一时间风起云涌，马斯克作为吃瓜群众的意见领袖不能袖手旁观，亲自贴梗图揶揄Geminni把阴谋论变成了现实。

来源：推特

谷歌官方在23号发文致歉，说Gemini生图功能基于Imagen 2模型，当它被整合到Gemini里的时候，公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。

因为谷歌的用户来自世界各地，我们不想这个模型只生成单一人种。

谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的，但是前谷歌AI伦理科学家分析可能是用了下面这两种方式：

1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”，而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。

2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像，谷歌会根据肤色深浅度进行排序，所以当只显示生成结果前4张图时，肤色较深的图像出现概率更高。

文生图的种族歧视问题实际根源在于训练样本不够多样化。

样本数据多是从网络上爬取而来，地区以美国和欧洲为主，所以训练出来的模型很大程度反映了这个区域的刻板印象。

谷歌真想解决这个问题应该从源头入手，而不是直接粗暴地增加少数族裔形象的比重。

这下子不仅把谁都得罪了，还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。

翻车快成了谷歌在AI前进道路上的保留项目。

Bard当年在演示的时候回答错了有关韦伯望远镜的问题，现场翻车。

Gemini首发十分顺利，不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹，隔天翻车。

Gemini文生图种族歧视问题酝酿了三周才正式翻车，从间隔时长来看，谷歌这次还算是进步不小。

不过不知道接下来Gemma的种族歧视问题会不会发酵，开源出去的模型，泼出去的水，这可不是想下线就能下线的功能了。

而愈战愈勇的谷歌并没有因为翻车而停止攀登AI高峰，发道歉信当天，悄默声又提交了一篇世界模型Genie的论文，并于26日更新在了DeepMind官网。

来源：DeepMind官网

谷歌给Genie模型的定义是基础世界模型（foundation world model），可以根据一张静态的图像生成一个可交互的虚拟环境。

也就是说你给Genie一张乐高雷神的照片作为输入提示：

Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境，用户可以控制它跳跃前进后退，探索图片中不存在的世界。

具体实现方式涉及了三个组件：

1. 潜在动作模型（Latent Action Model，LAM），通过互联网视频，以无监督方式学习每一帧之间物体的潜在动作。

2. 视频分词器（Video Tokenizer），将原始视频帧转换为离散的标记（tokens），以降低数据的维度并提高视频生成的质量。

3. 动态模型（Dynamics Model），负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。