苹果20亿美元收购的Q.ai,将如何革新AI时代的人机交互?
5 小时前 / 阅读约6分钟
来源:36kr
苹果收购Q.ai,利用AI革新智能可穿戴设备交互方式。Q.ai技术包括嘈杂环境识别人声和检测面部肌肉活动,有望重塑人机交互。交互界面进化提高人机交互带宽,AI智能硬件普及率或不低于智能手机。

近日,苹果公司以近20亿美元的价格收购了Q.ai,这是苹果迄今为止规模第二大的收购案,仅次于2014年以30亿美元收购Beats。

Q.ai利用AI,让设备能够在嘈杂环境中也能识别人类的低声交谈,它还有一项技术是检测面部肌肉的细微活动,这两项技术,都有潜力革新智能可穿戴设备的交互方式。

在被苹果收购前,Q.ai于2022年获得Google Ventures(GV)和Aleph领投的种子轮融资,2023年又获得GV、 Kleiner Perkins、Spark Capital参投的A轮融资,总融资额在数千万美元,Matter Venture Partners和Corner Ventures也在它的投资人名单。

基于感知的交互,让AI硬件最终“消融”于我们的日常生活

被收购后,Q.ai的核心团队将加入苹果,其中包括Aviad Maizels (CEO )以及联合创始人Yonatan Wexler和Avi Barliya。  

这是Aviad Maizels第二次向苹果出售公司,2013年,他联合创立的3D传感技术公司PrimeSense被苹果收购,这家公司的技术最初应用于Xbox Kinect,随后被苹果转化为支撑iPhone FaceID的核心技术。

Q.ai核心团队部分成员与Spark Capital投资人Nabeel Hyatt合影,来源:Nabeel Hyatt

在Q.ai的核心团队中,Yonatan Wexler是马尔奖(计算机视觉领域的最高荣誉)获得者,他的成果OrCam MyEye 2(帮助视障人士“看”到文字和识别物体)曾获《时代周刊》“年度最佳发明”。Avi Barliya是一位曾参与从自动驾驶系统到SpaceIL月球探测器研发的连续创业者。

有趣的是,几周前,一家叫Lyte的公司获得了1.07亿美元的早期融资,Lyte由Alexander Shpunt、Arman Hajati和Yuval Gerson共同创立,Alexander Shpunt曾联合创立PrimeSense并担任CTO。  

Lyte做的是软硬件结合的端到端视觉感知系统,为物理AI提供一个连接智能层的感知层。让机器人的“眼睛”与“大脑”直接对话。

而Q.ai做的事情,与PrimeSense时期的思路,似乎一脉相承。

无论是Xbox Kinect,还是iPhone FaceID ,本质上都是基于感知的交互。

Kinect通过视觉感知,实现体感/手势交互, FaceID通过视觉感知,实现解锁,支付认证等交互和功能。

Q.ai目前公布的技术有两项,一项是利用AI让设备能够在嘈杂环境中也能识别人类的低声交谈,在复杂环境中优化音频表现,另一项是检测和识别面部肌肉的细微活动,来检测口型或语音,进而识别用户身份,并评估其情绪、心率及呼吸频率等生理指标。它们都是感知技术。

这两项感知技术怎么应用在交互上?我们推测,可能会是耳语识别与唇语识别相结合。目前的AI原生硬件,交互方式以按键+语音为主,但相比传统的纯触摸屏,语音交互需要清晰的发声,在一些场合中会出现“社交羞耻”,让用户在与设备交互时有顾虑。

苹果一向对交互和用户界面十分重视,是打造“隐形界面”的大师,它们希望让技术仿佛成为用户自身的自然延伸。

加入苹果后,Q.ai 的技术有望触达数十亿用户,从根本上重塑人与机器之间,人与人之间的交互方式。这不禁让人好奇,当AI硬件最终“消融”于我们的日常生活之中时,会是怎么一种体验?

交互界面的进化,本质在于提高人机交互的“带宽”

个人计算设备的发展和普及,是算力、智能(功能)、体积、交互界面这些因素,联合推动的。

在摩尔定律下,设备在单位体积和成本下的算力,不断变强。这推动了个人计算设备从PC到手机,不断变小。并且,在算力的支持下,个人计算设备的功能也越来越丰富。

而在交互界面上,它的进化是一个阻力不断变小,门槛不断降低的过程。

最初,个人计算机的交互界面是命令行(CLI),这时候它的用户群集中在开发者和计算机爱好者这个小群体。

之后,GUI和鼠标键盘被引入PC,精确的文字编辑和表格制作成为可能,这让各行业的专业人士得以用上PC,并随着之后用户的进一步增长,推动了互联网的普及。

iPhone的横空出世,带来了多点触控的交互方式,这让个人计算设备的普及率进一步提高,开始出现用户量达到十亿级别的超级应用。

交互界面的阻力变小,为什么会带来门槛的降低?本质上它是提高了人机交互的“带宽”。从命令行到GUI,再到多点触控,人们在操作时,“想”得越来越少,操作起来越来越直观。

在AI时代,智能可穿戴设备出现了,人和机器的关系开始出现转变,以往是人去精确的操控机器,现在机器将学会理解人类。

在人与智能可穿戴设备交互时,什么方式是目前最普遍的?是多模态交互。所谓多模态交互,既包括语音,也包括一些手势之类。总之,它是基于感知的交互。

这种基于感知的交互,是主动的、直接的捕捉并解析人类的思维活动,有望建立迄今为止带宽最高的人机接口,也有潜力弥合人类思维与机器交互之间的鸿沟。

现阶段,对于智能可穿戴设备,智能有AI模型不断地发展,因为之前智能手机打下的基础,在体积(通常与续航和端侧算力相关)上也已经初步找到路径,如果交互方式在未来收敛,形成与多点触控一样的默认交互方式。那么AI与物理世界交织,迸发出的能量是巨大的。AI智能硬件,在未来的普及率,很可能不会低于智能手机。