微软推出两款MAI-1系列自研模型,下一代模型MAI-2研发工作已启动
3 小时前 / 阅读约17分钟
来源:36kr
微软发布两款自研AI产品:MAI-1预览版和语音生成模型MAI-Voice-1,标志着微软在自研AI技术上取得重要进展,并减少对OpenAI的依赖。

划重点:

  • MAI-1预览版是微软首个“从头到尾自主训练的基础模型”,约在1.5万张英伟达H100 GPU上完成预训练和后训练。
  • 微软还发布语音生成模型MAI-Voice-1,能在单张 GPU上不到一秒钟生成一分钟高保真音频,是当前效率最高的语音系统之一。
  • 此举标志着微软在战略上减少对OpenAI的单一依赖,两家公司的关系中出现了新变化。

当地时间8月28日,微软发布了两款关键的人工智能产品,标志着其在自研AI技术上的重要进展。

微软此次发布了MAI-1预览版(MAI-1-preview),这是该公司首个从头到尾自主训练的大语言模型,并已在社区评测平台LMArena向公众开放测试;同时,微软还发布了语音生成模型MAI-Voice-1,现已集成至Copilot Daily、Podcasts等应用,并在Copilot Labs提供体验。

微软在官方博文中表示,用户可通过LMArena平台体验MAI-1预览版模型的文本生成能力并提交反馈。该公司还为开发者开放了申请表格,提供有限的早期API测试机会。“我们将在未来几周内逐步将MAI-1预览版部署到Copilot的部分文本场景中,通过用户反馈不断改进,”微软在博文中写道。

押注自主研发

微软人工智能部门首席执行官、前DeepMind联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)在社交媒体平台X上表示,MAI-1预览版是微软首个“从头到尾自主训练的基础模型”。该模型在大约1.5万张英伟达H100 GPU上完成预训练和后训练,并已运行在最新的GB200芯片集群之上。苏莱曼还表示:“我们对未来充满雄心——不仅要在模型层面持续突破,还要通过微软产品触及数十亿用户。”

目前在LMArena的排行榜中,MAI-1预览版在文本任务上的表现位列第13名,落后于Anthropic、DeepSeek、谷歌、Mistral、OpenAI和xAI的模型。这一成绩表明微软虽在基础模型上初露锋芒,但仍需时间追赶行业领先者。

与此同时,微软还推出了高度自然且富有表现力的语音生成模型MAI-Voice-1。该模型已经嵌入Copilot Daily和Podcasts功能,并通过Copilot Labs向用户开放体验。微软表示,MAI-Voice-1能在单张 GPU上不到一秒钟生成一分钟高保真音频,是当前效率最高的语音系统之一。

人才与战略版图

微软AI团队近年来不断扩张,除吸纳苏莱曼创办的Inflection大量员工外,还招募了来自谷歌DeepMind的十余位研究人员。苏莱曼在X上强调,微软正在打造一个“面向所有人的AI”,既要可靠、负责任,又要具备个性化与专业性,最终成为用户获取知识与能力的入口。

微软曾经在小型开源模型上有所尝试(Phi 系列),但推出MAI-1预览版意味着该公司正在向规模化、全栈式的基础模型战略转型。

微妙的竞争关系

微软近期一直试图减少对长期合作伙伴OpenAI的依赖,并在人工智能领域树立更强的自主地位。这一动作标志着微软在与OpenAI的关系中出现了新的微妙变化。过去数年,微软不仅是OpenAI的最大金主——已累计投入逾130亿美元,还通过自家Azure云服务为后者提供核心算力支持。OpenAI的ChatGPT目前的周活跃用户已达7亿人,而微软则借助其模型为必应、Windows 11以及一系列生产力工具提供AI功能。

然而,随着OpenAI近来在云端算力上更多依赖CoreWeave、谷歌与甲骨文,微软与其伙伴关系已不再如往昔般牢固。去年,微软甚至将OpenAI加入到其年度报告中的竞争对手名单,与亚马逊、苹果、谷歌和 Meta并列。

业内人士认为,微软的举动既是顺应AI发展趋势的必然选择,也可能加剧与OpenAI的竞争格局。对于微软而言,拥有自研大模型意味着在战略上减少对合作伙伴的单一依赖,同时在产品整合和商业化节奏上拥有更大自主权。

不过,从性能排名和用户口碑来看,MAI-1预览版能否快速缩小与市场领先者的差距仍有待观察。与此同时,微软依旧需要平衡与OpenAI的合作关系,避免在最关键的AI基础设施层面出现“合作即竞争”的尴尬局面。微软方面表示,这仅仅是起点,未来还将推出更多专业化模型,以覆盖不同用户需求场景。正如苏莱曼所言:“我们正在启动飞轮效应,推动模型迭代的加速。”

苏莱曼详解推自研模型原因

苏莱曼在发布会后接受了Semafor科技记者里德·阿尔贝戈蒂(Reed Albergotti)的采访,解读微软推出两款自研模型的原因。他强调,作为全球市值最高的公司之一,微软必须拥有内部专业技术来打造世界领先的模型,因为人工智能不仅是技术的未来,也是未来数十年商业交易和价值创造的核心。此举使微软在与科技巨头和资金雄厚的人工智能初创公司的高风险竞争中能够掌控自己的命运,同时继续与OpenAI保持合作关系。

以下是访谈全文:

阿尔贝戈蒂:今天是一个激动人心的发布日。我很好奇,为什么微软需要自主开发端到端预训练基础模型,而不是使用OpenAI等其他公司的模型?

苏莱曼:这是一个很好的问题。我们是全球市值最高的公司之一。人工智能不仅是技术的未来,也是未来几十年我们进行商业交易和创造价值的方式。因此,这对我们的业务至关重要。我们必须拥有内部专业技术来打造世界上最强大的模型。这就是我们自从我大约14、15个月前从Inflection加入微软后开始这项工作的原因。现在是一个非常激动人心的时刻。我们推出了两款模型:MAI-1预览版,以及语音生成模型MAI-Voice-1。

阿尔贝戈蒂:它们是两款不同的模型?

苏莱曼:没错,是两款不同的模型。我们希望训练出世界上最好的语音模型之一,MAI-Voice-1非常流畅、清晰且富有表现力。我们致力于确保有多种选择。我们可能会使用第三方开发者的模型,也肯定会继续长期使用OpenAI的模型,或者已经使用的开源模型。未来,关键的知识产权将是“编排器”(orchestrator),它决定在何时为特定查询选择哪款模型。这是我们12到15个月前采取的方法,也是我们现在的方向。

阿尔贝戈蒂:你说的“编排器”是自动根据查询选择合适模型的系统吗?

苏莱曼:是的,可以将编排器看作一个路由器,决定在何时将哪个查询交给哪个模型。

阿尔贝戈蒂:很多人看到这个消息会觉得,微软可能在与OpenAI拉开距离,或者关系有所冷却。你怎么看?双方的关系还密切吗?

苏莱曼:我们的目标是深化与OpenAI的合作,确保未来多年保持良好的协作关系。到目前为止,这段合作非常成功,双方都从中受益匪浅。我希望这种合作能继续,我对此很有信心,没有任何担忧。

阿尔贝戈蒂:你透露这些模型是在1.5万张H100 GPU上训练的。很多公司对此保密,但我们看到一些模型使用10万张H100 GPU,现在还有下一代GPU。能否用更少的GPU获得同样的性能?

苏莱曼:是的,我们展示了可以在相对较小的集群上训练模型。1.5万张GPU的集群现在算是较小的,但我们获得了世界级性能。这款模型的表现远超预期,与世界上最好的模型不相上下。我们才刚刚开始,一旦模型投入生产并收集反馈,性能将显著提升。团队表现非常出色,这只是一个开始。

阿尔贝戈蒂:你在X上称MAI-1预览版模型与顶级模型水平相当,是否有特定的基准测试数据支撑这一说法?

苏莱曼:我们针对所有基准测试开展了训练工作。当前的模型需要具备通用性,尤其是文本模型。未来我们还会纳入多模态数据,因为更多样化的数据能帮助模型实现更优学习效果,我们对此持开放态度。

阿尔贝戈蒂:MAI模型的研发资源是否充足?若配备更多GPU,是否能进一步提升模型性能?

苏莱曼:我们目前刚开始在GB200芯片上进行模型的训练与测试,同时正在搭建一个规模庞大的GB200集群,该集群将供OpenAI、MAI项目以及我们的推理合作伙伴共同使用。微软正着手建设全球规模最大的 GB200与GB300芯片集群,未来五年的发展路线图已十分明确。规模固然重要,但效率同样关键。筛选高质量的训练数据,确保每个计算单元都能被高效利用,这是模型训练过程中的核心技艺。目前我们已展现出极高的研发效率与令人印象深刻的模型性能。

阿尔贝戈蒂:几周前你发表了一篇关于“看似有意识”的人工智能(seemingly conscious AI)的文章,文中提到需避免此类情况发生。这一观点颇为有趣,因为无论是在Inflection还是微软,你都一直强调要让模型具备同理心与讨喜的个性。这篇文章是否意味着微软在AI研发方向上出现了转变?是否需要调整此前的发展思路?

苏莱曼:并非如此。首先需要明确的是,人类的诸多能力,包括智商、情商、行动能力与社会智能,均具备高度可训练性,而AI模型最终也将逐步具备这些能力。它们通过模仿学习,且拥有海量的模仿数据作为支撑。作为AI技术的“塑造者”,我们需要思考希望实现哪些目标、规避哪些风险,密切关注技术应用可能产生的意外后果,并以负责任的态度推动模型迭代。

我撰写那篇文章,旨在提醒行业同仁:盲目模仿人类的所有能力存在重大风险。当下正是主动思考这些风险的关键时期,在我的职业生涯中,始终致力于推动人们关注未来两到三年可能面临的挑战,这并非制造恐慌,而是基于现实的必要考量。未来,不仅微软或OpenAI,数十万开发者都将在开源环境中接触到这些先进AI能力,我们必须提前思考它们可能对世界产生的影响。

阿尔贝戈蒂:你提到目前尚未达到“AI看似有意识”的阶段,这一过程可能还需数年。但近期有新闻报道称,OpenAI与Character AI因旗下聊天机器人引发自杀事件而被起诉。这类事件是否属于你此前担忧的风险范畴?

苏莱曼:AI技术应用过程中,确实可能出现各类难以预测的意外效应。我们能做的,是提前预判潜在风险,认真对待已发现的问题,并迅速在模型中采取优化措施。回顾过往的技术发展历程,人们往往会回避技术可能带来的潜在危害,导致问题解决耗时过长。此次在AI领域,我们需要保持谨慎与主动,同时尽快将技术的积极价值带给世界。

阿尔贝戈蒂:使用MAI-1模型与语音模型时,用户会获得怎样的体验?您希望它们能像富有同理心的人类一样与用户交流,但又不完全等同于人类,这些模型将如何平衡这一关系?

苏莱曼:MAI-1预览版更像是未经雕琢的“原材料”,后续我们会为其塑造特定个性,并将其融入Copilot等产品中。社区中的其他开发者或许会在开源环境中尝试为模型赋予各类个性,未来可能会出现数百万种不同的模型个性,就如同人类、品牌与组织各有特色一般。每当新的沟通媒介出现,总会涌现出丰富多样的表达风格。目前AI模型的个性仍较为单一,但未来几年这一局面将发生改变,我的文章也希望提醒大家关注这一趋势。

阿尔贝戈蒂:如此看来,在模型预训练阶段难以对个性进行过多干预,个性塑造主要集中在后训练阶段?

苏莱曼:是的,预训练阶段对模型个性的控制空间有限,而后训练与提示工程是塑造模型个性的强大技术手段,许多开发者都具备运用这些技术的能力。未来必将出现数百万种不同个性的AI模型,技术与产品带来的体验也将与过去截然不同。

阿尔贝戈蒂:你将AI研发者比作“塑造者”(Sculptors),也有人将这一过程称为“培养”(Farming)模型。随着模型能力不断增强,你认为是否需要解决AI的“黑箱问题”(Blackbox Problem),深入研究模型内部的神经元运作机制?

苏莱曼:这一方向或许具有研究价值,但我认为,对AI模型“可解释性”(Interpretability)的过度执着,在一定程度上带有拟人化色彩。模型生成文字、模拟人类体验,并不意味着其内部存在与人类相似的 “意识实质”(Fundamental Conscious Truth)。它们本质上是预测引擎,能够高度逼真地模仿人类体验,但内部并无真正的意识。人类的意识建立在实时感官输入、信息存储、处理与预测生成的基础之上,而大语言模型的内部则是“空洞”的,并不具备这样的意识基础。研究模型的内部运作机制,属于有趣的科学探索,但认为此举能揭示意识的本质,则是一种错误认知,且目前而言为时过早。

阿尔贝戈蒂:即便模型本身是“空洞”的,但随着模型规模扩大与技术持续进步,其能力将不断增强,是否会出现难以控制的情况?

苏莱曼:我并不这么认为。正如我在文章中所写,我认为AI模型不会突然产生欲望、动机或意志这类属性。这些特性源自人类的生存本能,而后训练则是塑造AI行为的可靠方法。我们的责任是仔细思考需要排除哪些行为、强化哪些行为。这些行为特性不会自然形成,除非有人故意设计。因此,我们对AI模型拥有足够的控制权,能够在充分发挥技术价值的同时,主动降低潜在风险。

阿尔贝戈蒂:你在新闻发布会上提到了人才招聘计划,当前人工智能行业的人才竞争十分激烈。微软目前的招聘进展如何?能否以理想薪资吸引到所需的核心人才?

苏莱曼:招聘进展非常顺利。我们从Inflection带来了一支实力雄厚的团队,同时还从各大顶尖实验室吸纳了众多优秀人才。我们对团队规模保持谨慎控制,高质量的研发工作并不依赖庞大的人员数量,但目前团队已扩展至数百人,整体招聘工作按计划推进。

阿尔贝戈蒂:微软将如何吸引顶尖人才,例如年轻的博士生?他们为何会选择加入微软,而非OpenAI或DeepMind?

苏莱曼:最优秀的人才往往希望从事具有影响力的工作,参与打造出色的产品,并攻克前沿技术难题。我们已成功证明,能够用较少的GPU资源与高质量数据打造出世界级的AI模型,这正是吸引人才的核心“名片”。未来几个季度,我们还将推出更多新模型,我期待能继续打造一支顶尖的研发团队。

阿尔贝戈蒂:有报道称,MAI模型的开发过程中遇到了进度延迟与能力不达预期的问题。作为微软首款端到端研发的基础模型,研发过程中是否面临巨大挑战?从中获得了哪些经验?

苏莱曼:搭建如此规模的芯片集群、处理海量训练数据,本身就伴随着巨大挑战,这需要大量的调整优化、持续迭代,以及足够的耐心与谦逊态度。每个AI实验室在技术研发过程中都经历过多次产品发布,我们拥有一支优秀的团队,将继续推动模型迭代并推出新产品。我对未来充满信心,我们的技术迭代“飞轮”已经开始转动。

阿尔贝戈蒂:你在Inflection与DeepMind积累的经验,能否直接应用于微软的AI研发工作?还是说每家公司都面临独特的挑战?

苏莱曼:核心在于建立优秀的团队文化。文化吸引人才,团队打造模型,而团队的价值观也会融入模型与产品之中。我们致力于构建友善、互助且追求技术卓越的团队文化。此外,微软在全球范围内的影响力 ——能够触达数十亿消费者与无数企业,这一点对许多人才而言也极具吸引力。

阿尔贝戈蒂:这些AI模型何时会全面融入微软的各类产品线?

苏莱曼:这一过程将很快启动。目前我们还需要对核心模型进行若干轮迭代,并开展大量后训练工作,使其能够适配不同应用领域。未来可能会通过Foundry API向更多用户开放模型使用权限,相关工作均在推进中。

阿尔贝戈蒂:你提到借鉴了开源领域的经验,但MAI模型并非开源模型。微软未来是否有将其开源的计划?

苏莱曼:存在这种可能性,我们对此持开放态度。目前市场上已有众多优秀的开源模型,我们当前的首要任务是测试模型在产品中的实际表现,收集用户反馈并推动模型迭代,同时考虑向更多客户开放使用权限。这些都已纳入我们的规划之中。

阿尔贝戈蒂:你此前提及了GB200芯片集群,目前MAI-2模型是否已进入开发阶段?是否计划在明年发布?

苏莱曼:我们已经启动了下一代模型的研发工作,新模型的规模将更大,在技术设置上也会有一些调整。相关工作正在有序推进,未来几个月到几年内,我们会公布更多进展。