谷歌回答你:如何让每个人的 AI 都独一无二
1 天前 / 阅读约9分钟
来源:36kr
四亿人眼中有四亿个不同的 AI 助手

在今年的 Google I/O 大会上,Sundar Pichai(Google CEO)公布了一组最新数据:

Google 的产品和 API 每月处理 token 数量已超过 480 万亿;

Gemini 活跃开发者超 700 万;

Gemini 应用目前的月活跃用户已超过 4 亿。

而作为这四亿分之一,我更关心的,是我使用的 AI 如何更适合我?有点像买鞋,或者处对象。Pichai 回答说:它们(AI 智能体)会在每位用户的控制下代表其执行操作 (on your behalf and under your control)。

一切的指向,是 AI 如何服务每一个与众不同的个体。想象那些曾经惊艳过你的科幻智能机器:R2D2 与天行者父子,机器猫和野比大雄,对了,还有最暖的 Javis 和大白(Baymax)……它们温柔、高效,又忠诚。

于是,Google 开始试着回答这个问题:如何让每个人也拥有和它们一样的 AI 助手?

在今年的 I/O 大会上,Google 的答案中不断重复着三个关键词:Personal(个性化),Proactive(主动性),Powerful(强力的)。

嗯,3P 原则。(……诶,我在说 AI,你在想什么……)

Personal:一个私人助手的自我修养

自动回复这件事本不新鲜,问题是收到自动回复后的第一感觉,一定不是对方的高效,而是扑面而来的冷漠——但我又是个时刻背负着与人为善思想包袱的人,咋整?

于是 Gmail 新发布了一个名叫“个性化智能回复”功能(夏季上线)。Gemini 可以根据你过去的电子邮件和 Google 云端硬盘中的信息来起草电子邮件,让邮件自动回复更符合你的语气——这也是个好机会,让你可以反思一下自己线上沟通的语言习惯,到底是温暖还是冰冷,还是喜欢阴阳怪气。

Google Meet 发布了的视频通话中实时语音翻译功能。它能实时翻译你说的话,同时保留你的声音和语调,不会让你在说母语和说外语的变化中,尴尬得判若两人。最开始会支持英语和西班牙语,未来几周还会有更多语言加入。

对我来说,这项功能最大的利好,就是我那个英语专八的倒霉同事再也不能在我面前得瑟了。

你大概还记得去年我们在 I/O 现场对 Project Astra 的体验?今年,期货终于变成了现货——一条通向真正“世界模型”的通道,通过手机或眼镜观察世界、模拟世界、理解世界,甚至再造世界。这比任何单纯文字和语音的沟通,都更接近我们理想化的个人助手。

这次,Google 把 Project Astra 放进了名为 Gemini Live(苹果系统和安卓系统都已经可以使用)的应用中。

Live 功能界面

在几段演示片段里:它可以实时指导你修理自行车,包括线上查找说明书、识别修理位置的具体问题、在堆满杂物的工具间寻找零件,甚至在有人来叫你吃饭时自动停止,并在之后继续;你可以举着孩子从学校带回来的手工作业,让 Gemini 帮你发现其中可以增强优化的地方;当你神经兮兮地指着自己的影子,问它问啥有人跟踪自己时,它也能立刻告诉你“别怕,那只是你的影子”,而且保证不会对你翻白眼……

更多时候,你可以在开会时,把老板潦草混乱的板书拍进 Gemini,自动进日历和备忘录,然后尽情走神摸鱼;或者把你媳妇儿出门前留给你任务纸条拍进镜头,自动生成一个周末的 to-do-list,该做的家务和该买的商品一件不落,晚上不会挨揍。

根据演示展台工作人员的介绍,这种协助行为同样可以是个性化的,对你经常面对的问题或经常忽略的问题给予重点提示。

偷懒和增效不过是一体两面,AI 助手大概也不在乎这些。

Proactive:AI 敏而好学,人类不耻长(常)问

Google的大会,那避不开“搜索”。

我一直期望,AI 可以帮我解决一个长期困扰着全人类的世纪难题:今天中午吃点嘛?

打开陈旧算法主宰的各种本地生活应用,只会日复一日地推荐你吃过的和付费推广店铺,这种所谓的“主动推荐”让我每天中午都无比被动——理想的午餐答案一定是既要又要,懂我的口味,又不断推陈出新。

AI 加持下的搜索,就提供了另一种主动的协助。今年 I/O 上,Google 为自己的搜索叠加了一个名为 AI Mode 的模式。相比去年上线的 AI Overview,最新的 AI 模式能承载更多的“动作”。

就以我纠结的午饭难题为例吧:

深度搜索 (Deep Search):针对我每天不厌其烦的问题“北京大望路到底有什么午饭可吃”,AI 模式下的 Google 搜索将执行数百次搜索,整合每一次收集出的不同信息,并在几分钟内生成专家程度堪比“朝阳区包打听”的餐馆清单,包含了时间、价格、评价,是否外卖等等;

实时功能 (Search Live):要是我午饭前太忙,连上面的清单都懒得看,还可以使用 AI 模式搜索中 Project Astra 的实时能力——拍一张办公桌窗外的马路,说:就在这个范围内找口吃的;

代理功能 (Agentic Capabilities):忙到出不了门的话(其实都是装给老板看的),AI 模式搜索可以调用 Project Mariner 的代理能力,在选择的搜做结果中自动下单叫外卖,这其中就包括了帮你比价、比配送时间、比评价口味等,到底是天桥对面的沙县,还是楼下拐角的拉面;

个人情境 (Personal Context):根据我过往的搜索和消费,下单时候可以自动备注多放香菜不要算,赠送的咖啡别加奶,薯条多两包番茄酱(当然,这些个人历史信息的使用都会获得额外的通知);

自定义图表和图形:最后的大招,你就是选择障碍(我看就是不够饿),那就把上述优化结果请 AI 模式拉一个数据图出来,甚至做个“如何寻找午饭难题抓手和构建用餐飞轮”的 ppt,自己订个会议室好好分析一下吧,看看为什么自己这么事儿事儿的……

为了口吃的这么折腾,是病

最后,话说回来,如果你需要用上面所有功能,才能决定午饭内容,那你的同事早就吃完回来睡了一觉了。如此的话,我劝你还是跟我一样,饿一顿吧,没啥。

Gemini 不会厌烦或笑话你,但你自己会低血糖。

Powerful:目标是 Universal AI App

Pichai 在现场提到,Gemini 的终极目标,是成为一个 Universal AI app——也许可以这么理解这个名词:通用、跨平台和设备,以及真正的世界模型。

在今年 I/O 现场的发布中,还有一些体现了这种愿景的新发布:

首先,最受期待和欢迎的就是 Android XR 的公布,智能眼镜上的安卓系统。多少人关于 Google Glass 的怨念终于得到了报偿:外观类似苹果 Vision Pro 的“重型”XR 眼镜将同三星和高通合作生产,代号 Project Moohan;外观类似 Rayban Meta 的“轻型眼镜”将同时尚眼镜品牌 Gentle Monster 和 Warby Parker 联合推出。

在现场“轻型版”原型机的时代体验中,最大的感受是 Gemini 的交互流畅度的确大大好过其他市面上已有的类似产品。

其次是新发布的 Imagen4 和 Veo 3,其中最显著的进步,是 Veo 3 成为了世界上首个原生支持音效、背景噪音和角色对话的视频生成模型。

在 Pichai 发布演讲的最后,他举了一个“小例子”,从另一个应用角度展示了 AI“协助角色”的价值:还记得去年令人震惊的加州山火么?一款通过 Google AI 加持的山火检测应用,可以将对火险隐患的检测范围精确到 270 平方英尺(约 25 平方米),响应时间从原先的 12 小时缩短为 20 分钟。

这么好的助理,要说贵,也的确不便宜

但也总有人用使唤着“强力助理”,偶尔做一些蠢事,比如我:

几个小时前,我坐在 I/O 会场,尝试 Gemini 生成这篇稿件的大纲,为了能快点交差去展区闲逛,但最终还是推翻了它给我的六个不同版本,自己写了,写完一看:嘿,这不跟 Gemini 给我的第一版差不多么……

AI 成为个人助手的时代,我终于活成了我讨厌的老板的样子。

所以,AI 助理也不容易,是吧?我决定给它属个名,算个绩效,以资鼓励。