谷歌回答你：如何让每个人的 AI 都独一无二 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

谷歌回答你：如何让每个人的 AI 都独一无二

1 天前 / 阅读约9分钟

来源：36kr

四亿人眼中有四亿个不同的 AI 助手

在今年的 Google I/O 大会上，Sundar Pichai（Google CEO）公布了一组最新数据：

Google 的产品和 API 每月处理 token 数量已超过 480 万亿；

Gemini 活跃开发者超 700 万；

Gemini 应用目前的月活跃用户已超过 4 亿。

而作为这四亿分之一，我更关心的，是我使用的 AI 如何更适合我？有点像买鞋，或者处对象。Pichai 回答说：它们（AI 智能体）会在每位用户的控制下代表其执行操作（on your behalf and under your control）。

一切的指向，是 AI 如何服务每一个与众不同的个体。想象那些曾经惊艳过你的科幻智能机器：R2D2 与天行者父子，机器猫和野比大雄，对了，还有最暖的 Javis 和大白（Baymax）……它们温柔、高效，又忠诚。

于是，Google 开始试着回答这个问题：如何让每个人也拥有和它们一样的 AI 助手？

在今年的 I/O 大会上，Google 的答案中不断重复着三个关键词：Personal（个性化），Proactive（主动性），Powerful（强力的）。

嗯，3P 原则。（……诶，我在说 AI，你在想什么……）

Personal：一个私人助手的自我修养

自动回复这件事本不新鲜，问题是收到自动回复后的第一感觉，一定不是对方的高效，而是扑面而来的冷漠——但我又是个时刻背负着与人为善思想包袱的人，咋整？

于是 Gmail 新发布了一个名叫“个性化智能回复”功能（夏季上线）。Gemini 可以根据你过去的电子邮件和 Google 云端硬盘中的信息来起草电子邮件，让邮件自动回复更符合你的语气——这也是个好机会，让你可以反思一下自己线上沟通的语言习惯，到底是温暖还是冰冷，还是喜欢阴阳怪气。

Google Meet 发布了的视频通话中实时语音翻译功能。它能实时翻译你说的话，同时保留你的声音和语调，不会让你在说母语和说外语的变化中，尴尬得判若两人。最开始会支持英语和西班牙语，未来几周还会有更多语言加入。

对我来说，这项功能最大的利好，就是我那个英语专八的倒霉同事再也不能在我面前得瑟了。

你大概还记得去年我们在 I/O 现场对 Project Astra 的体验？今年，期货终于变成了现货——一条通向真正“世界模型”的通道，通过手机或眼镜观察世界、模拟世界、理解世界，甚至再造世界。这比任何单纯文字和语音的沟通，都更接近我们理想化的个人助手。

这次，Google 把 Project Astra 放进了名为 Gemini Live（苹果系统和安卓系统都已经可以使用）的应用中。

Live 功能界面

在几段演示片段里：它可以实时指导你修理自行车，包括线上查找说明书、识别修理位置的具体问题、在堆满杂物的工具间寻找零件，甚至在有人来叫你吃饭时自动停止，并在之后继续；你可以举着孩子从学校带回来的手工作业，让 Gemini 帮你发现其中可以增强优化的地方；当你神经兮兮地指着自己的影子，问它问啥有人跟踪自己时，它也能立刻告诉你“别怕，那只是你的影子”，而且保证不会对你翻白眼……

更多时候，你可以在开会时，把老板潦草混乱的板书拍进 Gemini，自动进日历和备忘录，然后尽情走神摸鱼；或者把你媳妇儿出门前留给你任务纸条拍进镜头，自动生成一个周末的 to-do-list，该做的家务和该买的商品一件不落，晚上不会挨揍。

根据演示展台工作人员的介绍，这种协助行为同样可以是个性化的，对你经常面对的问题或经常忽略的问题给予重点提示。

偷懒和增效不过是一体两面，AI 助手大概也不在乎这些。

Proactive：AI 敏而好学，人类不耻长（常）问

Google的大会，那避不开“搜索”。

我一直期望，AI 可以帮我解决一个长期困扰着全人类的世纪难题：今天中午吃点嘛？

打开陈旧算法主宰的各种本地生活应用，只会日复一日地推荐你吃过的和付费推广店铺，这种所谓的“主动推荐”让我每天中午都无比被动——理想的午餐答案一定是既要又要，懂我的口味，又不断推陈出新。

AI 加持下的搜索，就提供了另一种主动的协助。今年 I/O 上，Google 为自己的搜索叠加了一个名为 AI Mode 的模式。相比去年上线的 AI Overview，最新的 AI 模式能承载更多的“动作”。

就以我纠结的午饭难题为例吧：

深度搜索（Deep Search）：针对我每天不厌其烦的问题“北京大望路到底有什么午饭可吃”，AI 模式下的 Google 搜索将执行数百次搜索，整合每一次收集出的不同信息，并在几分钟内生成专家程度堪比“朝阳区包打听”的餐馆清单，包含了时间、价格、评价，是否外卖等等；

实时功能（Search Live）：要是我午饭前太忙，连上面的清单都懒得看，还可以使用 AI 模式搜索中 Project Astra 的实时能力——拍一张办公桌窗外的马路，说：就在这个范围内找口吃的；

代理功能（Agentic Capabilities）：忙到出不了门的话（其实都是装给老板看的），AI 模式搜索可以调用 Project Mariner 的代理能力，在选择的搜做结果中自动下单叫外卖，这其中就包括了帮你比价、比配送时间、比评价口味等，到底是天桥对面的沙县，还是楼下拐角的拉面；

个人情境（Personal Context）：根据我过往的搜索和消费，下单时候可以自动备注多放香菜不要算，赠送的咖啡别加奶，薯条多两包番茄酱（当然，这些个人历史信息的使用都会获得额外的通知）；

自定义图表和图形：最后的大招，你就是选择障碍（我看就是不够饿），那就把上述优化结果请 AI 模式拉一个数据图出来，甚至做个“如何寻找午饭难题抓手和构建用餐飞轮”的 ppt，自己订个会议室好好分析一下吧，看看为什么自己这么事儿事儿的……

为了口吃的这么折腾，是病

最后，话说回来，如果你需要用上面所有功能，才能决定午饭内容，那你的同事早就吃完回来睡了一觉了。如此的话，我劝你还是跟我一样，饿一顿吧，没啥。

Gemini 不会厌烦或笑话你，但你自己会低血糖。

Powerful：目标是 Universal AI App

Pichai 在现场提到，Gemini 的终极目标，是成为一个 Universal AI app——也许可以这么理解这个名词：通用、跨平台和设备，以及真正的世界模型。

在今年 I/O 现场的发布中，还有一些体现了这种愿景的新发布：

首先，最受期待和欢迎的就是 Android XR 的公布，智能眼镜上的安卓系统。多少人关于 Google Glass 的怨念终于得到了报偿：外观类似苹果 Vision Pro 的“重型”XR 眼镜将同三星和高通合作生产，代号 Project Moohan；外观类似 Rayban Meta 的“轻型眼镜”将同时尚眼镜品牌 Gentle Monster 和 Warby Parker 联合推出。

在现场“轻型版”原型机的时代体验中，最大的感受是 Gemini 的交互流畅度的确大大好过其他市面上已有的类似产品。

其次是新发布的 Imagen4 和 Veo 3，其中最显著的进步，是 Veo 3 成为了世界上首个原生支持音效、背景噪音和角色对话的视频生成模型。

在 Pichai 发布演讲的最后，他举了一个“小例子”，从另一个应用角度展示了 AI“协助角色”的价值：还记得去年令人震惊的加州山火么？一款通过 Google AI 加持的山火检测应用，可以将对火险隐患的检测范围精确到 270 平方英尺（约 25 平方米），响应时间从原先的 12 小时缩短为 20 分钟。