智能体崛起，AI+软件研发到新拐点了？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

智能体崛起，AI+软件研发到新拐点了？

2025-11-13 / 阅读约32分钟

来源：36kr

大模型推动研发流程自动化与智能化，AI从辅助工具向核心生产力转变，但距离原生开发时代仍有距离。AI在测试、代码生成等环节提升效率，但稳定性、信任建立等问题仍需解决。

大模型正在深刻改变研发流程的各个环节，推动自动化与智能化。辅助编程、Coding Agent……AI 是如何从“辅助工具”变成核心生产力的？大模型原生开发时代到来了吗？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了平安科技高级产品经理吴朝雄、百度资深架构师颜志杰和汽车之家客户端架构师杜沛，在 AICon 全球人工智能开发与应用大会 2025 北京站（12 月）即将召开之际，共同探讨 LLM 时代的软件研发新范式。

部分精彩观点如下：

AI 在测试中更多是提效工具，而非替代方案。距离“原生开发时代”还有相当距离，现在只是走在“半坡上”。
提示词其实是一种“角色扮演”，你要让模型理解你的意图，就要让它进入特定角色，比如“作为某领域的专家”，让模型在特定规则与业务逻辑下执行任务。
Coding Agent 代表了通用智能体的发展路径，能独立完成软件研发任务的智能体，其潜力将远超特定工具层面的自动化，因为它更接近人类在物理与逻辑层面的行动模式。
我们希望 AI 不只是做演示级别的 Demo，而是真正能满足产品开发的实际需求，产出可维护性强的代码，而不是仅仅能“跑起来”的代码。
会用 AI ≠ 结果更好，不会用 AI ≠ 结果更差。考核的核心仍然是你最终的产出与影响，而不是过程里的工具选择。

以下内容基于直播速记整理，经 InfoQ 删减。

1 LLM 原生开发时代

吴朝雄：很多观点还是认为“AI 写代码”只是更高级的自动补全、不算范式变革。你们怎么看？

颜志杰：“一半是火焰，一半是海水”。我们看到各种新闻时，会惊叹于 AI 的不断进化，它能完成越来越多任务、击败专业人士、甚至带来可观收益。然而，作为程序员，在实际开发中，尤其是在多年积累的代码基础上进行开发时，常常会发现 AI 并没有想象中那么“神”，有时甚至显得笨拙。所谓“火焰”的部分，是指 AI 在一些相对独立、结构清晰的小任务或 0 到 1 的创新场景中表现突出；而“海水”的部分，则是复杂、庞大的现实任务，尤其是在已有代码库中落地时，挑战依然巨大。

对于不会写代码的人，只要能清楚表达意图，就能借助大模型具备软件开发的能力。举个例子，用“豆包”修图已经让很多不会用 Photoshop 的人完成了图片编辑，实现了从“不会”到“能”的跨越。但从程序员的角度看，AI 的帮助虽日益明显，却尚未完全达到“范式变革”的程度，应该说正处于临界点的前夕。

目前出现了越来越多 AI 编程产品形态，不再局限于 IDE，例如 Devin、SWE Agent 等集成进 DevOps 平台的 Web 产品，还有 Claude Code 等命令行工具，能够深度融入研发流程。一个明显趋势是，越来越多公司开始披露其代码中由 AI 生成的比例，而这一比例仍在快速上升，部分团队甚至已超过 50%。这意味着 AI 已深度介入代码生产，团队的开发习惯和工作方式正在改变。

对非研发群体而言，这无疑是范式变革；而对依赖编码谋生的程序员群体，目前处于变革拐点阶段，虽尚未完全实现，但趋势已十分明显。从整体影响力和效率提升的角度看，还未达到“真正的范式变革”。

杜沛：AI 的使用效果与使用者能力差异巨大。从我们公司内部来看，大多数人已经在使用 AI 辅助开发，但不同人使用的深度和场景差别很大。有人仅用来做简单问答或辅助编写函数，也有人已经尝试通过 Claude Code 等工具构建自己的流程化智能体，用于方案设计和代码编写。

从整体来看，开发方式确实发生了明显变化。过去我们习惯通过搜索解决方案，如今很多问题可以直接通过模型完成。不同模型间的能力差距也在迅速缩小。半年前还需要花大量时间解决的错误或兼容性问题，现在可能几分钟就能搞定。但模型本身的局限仍然存在，这也限制了我们进入真正高效的智能化开发时代。

以客户端开发为例，业务复杂度极高。不同平台都有大量依赖、插件和业务线，AI 在这些复杂场景下的表现仍有限。尤其在涉及 3D 建模等视觉任务时，大模型对视觉内容的理解仍较弱。因此，在许多复杂场景中，AI 还远未达到完全可用的程度。

但在标准化程度高的任务上，如文档生成、代码结构化设计等，AI 表现优异。如果我们能提供足够清晰的引导、上下文记忆或预处理，AI 能非常高效地完成工作。例如在跨端开发中，从 Android 迁移到 iOS 等规范性任务，AI 的帮助已经相当明显。AI 的全面接入还未实现，但正处在转折阶段；随着模型能力增强，我们会越来越接近真正智能化开发的时代。

吴朝雄：测试环节在整个研发流程中是最复杂、分支最广的一部分，包括接口测试、UI 测试、性能测试、手工测试等，每种类型的流程都不同。这些流程依赖严格的组织规范与管理体系，而这些是 AI 尚无法完全替代的。

AI 在测试领域中最擅长的仍是稳定性相关任务，如数据生成、数据分析、数据监控等。它能从大量数据中抽象出通用模式，帮助测试人员解决特定节点问题。比如在生成测试用例方面，模型在文本类内容上表现不错，尤其在需求明确的场景下。现在许多大模型经过蒸馏与训练，已具备特定领域的理解能力，如通义灵码等研发领域模型。

然而，在更复杂的测试逻辑上，如微服务管理、数据拓扑关联等，模型仍力有不逮。这些环节需要人类根据经验判断。AI 能生成局部的测试用例，但无法全面覆盖关联接口、异常场景等情况。

在测试领域，AI 目前仍主要承担辅助角色，尚无法达到协同开发的层面。与代码生成相比，测试用例更依赖具体业务属性。例如在金融行业，数据安全与系统复杂度极高，模型无法全面理解这些特定要求。AI 在测试中更多是提效工具，而非替代方案。距离“原生开发时代”还有相当距离，现在只是走在“半坡上”。

颜志杰：真正的范式变革，意味着从“不能”到“能”，或者能在可信度和可替代性上发生质变。无论是测试还是代码开发，目前模型仍难以胜任复杂任务，尤其是在微服务等需要深厚专业知识的场景下。虽然现在的阶段还不属于真正的范式变革，但不可否认的是，AI 已在许多细分场景中极大地解放了我们的生产力。

2 哪些开发环节已经从“人做”变成“AI 做”？

吴朝雄：在我们的一线实践里，有哪些事情已经从“人做”变成“AI 做”了？

杜沛：先介绍一下我们在代码生成方面的实践，特别是与 UI 设计稿相关的“Design to Code”方向。其实我们在这方面起步较早，早在 2023 年 AI 刚兴起时，我们就已经开始尝试。但当时模型的能力有限，幻觉率很高，经常生成一些并不存在的内容。

后来随着多模态模型的出现，我们看到了新的突破口。以往在开发中，页面复杂度会直接影响模型生成效果。页面信息越多，模型越容易出现选择性遗忘，遗漏部分细节。多模态模型引入图像理解后，情况有了明显改善。我们尝试了包括 Claude、豆包等在内的多种方案，发现图像能帮助模型更好地理解 UI 的意图。例如，一个按钮是“登录”还是“分享”，一个区域是“Banner”还是“列表”，这些原本隐含的交互信息通过图像理解可以被模型更准确地识别。

在此基础上，我们将图像理解与设计稿解析结合起来。目前我们内部使用 MasterGo，通过解析设计文件并抽取关键信息，再反复加权强化这些要点，减少噪音的干扰。这一方法在实际应用中取得了不错的效果。从结果来看，我们的代码生成可用度已经能达到 80% 至 90%。我们还进行了多轮跟踪测试，验证了它对整体效率的提升。但这并不意味着人力投入就能减少到 10%。原因在于模型生成的内容仍需人工复核，比如对像素级别的比对、界面验收等环节，依旧需要人工严格检查。

我们还在规范和记忆机制上进行了大量优化，使生成代码更符合人类开发习惯。我们还探索了多端代码转换，这部分逻辑规则相对清晰，比如在一端验证通过的逻辑可迁移到另一端，只需调整链路即可，这类任务 AI 处理得相当不错。例如，我们在 H5、小程序或不同框架间的迁移中取得了良好效果。AI 的代码生成质量可达 70% 以上，但由于后续仍需人工进行 code review 与规范验收，整体提效约可达原来的 1.5 倍。

相比传统自动化工具，AI 的优势在于处理大规模工程项目时能更快定位、规划和生成逻辑，不再需要耗费数小时甚至数天运行分析。在代码审查方面。过去我们依赖静态扫描或动态分析，如今 AI 可以结合规范进行自动检测。针对不同技术栈、不同项目场景，只要设定好规则，AI 就能识别潜在问题。通过这种双重机制，我们显著减少了测试阶段的 bug 数量，下降幅度可达 30%–40%。虽然目前还难以精确评估线上 bug 的减少幅度，但测试阶段的改善已经非常明显。

总体来说，这三个场景是我们在开发环节中最具代表性的 AI 应用。它们的共同特征是流程规范、任务可分解、结构化程度高。通过前期规划、阶段性检查与动态学习，能显著提升整体开发效率。

颜志杰：首先，AI 最擅长的是替代那些重复性、机械性的任务。过去我们主要依赖自动化手段来完成这类工作，但仍有许多自动化无法覆盖的场景。而现在，AI 正在填补这些空白。以我们团队的项目“文心快码”为例，我们需要维护中英文两个版本的前端代码。以往需要人工分别开发并维护，现在我们通过设定规则，让 AI 代理完成中英文版本的互转。只需开发中文版本，AI 就能自动生成英文版本，并完成验证与单元测试。这类工作过去靠自动化难以实现，而现在 AI 能高效、稳定、准确地完成。

再回到之前提到的“一半是火焰，一半是海水”的比喻。AI 在 0 到 1 阶段的创造性任务中表现尤为突出。例如生成脚本或原型开发，这些场景并不直接上线，但需要快速验证想法。AI 在这里能极大提升生产力，让程序员将时间投入到更复杂的工作中。同时，它也让非技术人员如产品经理能通过草图与自然语言生成原型，促进沟通与协作。这种变化，本质上已经改变了开发流程。

因此，我们可以看到，在 0 到 1 的“火焰”场景中，AI 的潜力被充分释放。而像 Figma to Code 这类应用，也属于这种相对简单、上下游关联较弱的领域，因而成为 AI 最先实现高效落地的方向。

在测试用例生成方面，比如我在编写接口测试用例时，如果只针对单个接口进行测试，就不必绑定所有外部依赖，只需验证接口本身的输入输出是否正确即可。在这种情况下，AI 的表现非常出色。当我们讨论“哪些事情从人做变成了 AI 做”时，我认为可以从 DevOps 或自动化的角度去理解：哪些任务过去依靠人工或传统自动化无法完成，而现在借助 AI 可以实现？如果重新梳理整个研发流程，就能发现许多环节都能精准匹配 AI 的特长，这正是 AI 替代人工的关键所在。

吴朝雄：大模型的上层能力在于生成多样化的数据和内容，因此它特别适合用于数据构造或内容生成，比如最常见的文档润色。这类任务的模式固定、复现容易，AI 能轻松胜任。以我熟悉的自动化测试领域为例，过去人力主要负责接口用例的生成和调试，而现在 AI 已经能在这一环节发挥很大作用。

在简单的接口测试场景下，我们关注的往往不是接口背后的业务逻辑，而是接口是否能正常运行。无论是否使用模型，这类测试都可以完成，AI 能自动生成部分输入数据，而人工也能手动构造，但差异在于复杂度。当测试对象是复杂接口时，情况就截然不同。

在平安内部，很多接口都存在数据安全管控，需要身份验证或依赖上下游数据。一个接口往往依赖多个服务或数据库操作，无法仅通过简单的入参构造完成测试。要实现自动化，就必须先进行数据库查询、预置数据，再执行接口调用。这种场景对编排逻辑的要求极高，需要清晰的流程设计与强大的脚本能力。

以往人工编写脚本容易出错，逻辑混乱、结构复杂，导致脚本无法执行。而现在，模型可以在理解数据库约束条件、接口逻辑、参数定义及场景需求后，自动组装上下文和执行逻辑，生成可运行的测试脚本。

目前我们在平安集团内部通过共建与推广模式，将这项 AI 自动化能力推广到各子公司，用例数据的生成覆盖率已达 60% 左右。过去人工编写的测试脚本常出现逻辑漏洞或断言错误，而现在模型在理解接口文档、参数含义、代码逻辑及数据库结构后，能自动判断应先落库还是先查询数据，从而生成更合理的执行流程。

举个例子：以前人工编写一个复杂接口的自动化测试脚本，通常需要一小时到半天不等，成本高且重复劳动多。现在通过模型生成，只需几分钟即可完成可执行用例，后续仅需微调即可，大大降低了人力投入。

我们目前的重点是实现从用例生成到调试、评审、执行、诊断、报告生成的全流程自动化。这不仅需要多个 agent 协同，还需系统级的流程编排。我们的底层能力已初步搭建，计划在明年底前实现完整的全流程自动化编排体系。

这将帮助我们真正跨越“原生时代”的技术壁垒，实现从辅助到自主的转变。过去测试人员需要思考如何设计用例，而未来他们只需关注“测什么”，也就是业务场景是否被充分覆盖。AI 将承担设计和实现的繁琐部分，让测试人员转型为质量架构师，从事更高层次的质量保障与体系设计。

3 AI 落地研发最先撞墙的是什么

吴朝雄：当 AI 写代码、写测试、生成数据，真的进入真实业务后，最先撞墙的是什么？是稳定性？幻觉？规则不懂？还是团队不敢用？

颜志杰：目前最大的问题在于 AI 的效果缺乏稳定性。当 AI 带来的收益不足以抵消改变原有工作习惯的成本时，落地就会变得非常困难，因为这种改变往往“反人性”、也“反直觉”。尤其是当人们尝试改变习惯后，发现效果依然不确定，那就更难推广与落地。因此，关键问题在于“稳定的效果”。比如在早期的 Copilot 模式中，AI 用于代码续写或测试用例生成，对开发者的使用习惯影响不大，而且确实带来了一定收益。因为与传统基于规则的补全相比，AI 的补全更智能，所以这种落地相对容易。

但现在业界流行的 SPEC 模式却更复杂。开发者需要先进行需求澄清，不再是自己直接写代码，而是要通过与 AI 的自然语言交互逐步实现。特别是在大型存量代码库中，AI 很难处理如此庞大的上下文。它有时能正确修改，但更多时候虽找到了问题，却以不符合逻辑的方式修改。例如，本该复用的函数被重复生成，或日志库被莫名替换。这些问题都让实际落地非常困难。

因此，我们需要承认当前 AI 仍缺乏稳定性。若要务实推进落地，应从小任务开始，而非寄望“一句指令解决所有问题”。一句话对人来说都未必能准确表达，更何况对模型。即使写好了 SPEC，也不能保证模型完全遵守逻辑。模型偶尔会“抽风”，即便明确要求它不做某事，它仍可能执行。

所以我认为应像传统软件开发那样，从小任务、类工建设入手，写好文档、做好设计，逐步放大任务规模，探索人机协作的边界。随着信任与方法的积累，AI 能承担的工作比例会逐渐提高，落地过程也会更加稳健。这是我对这一问题的理解与建议。

杜沛：这实际上属于“信任建立”的问题。尤其在初期使用时，例如在 IDE 中输入需求，十次问答 AI 可能有两次回答不准确。用户往往会记住失败的那两次，因为那意味着额外的时间成本——要反复提问、修正，甚至多次都错，从而降低信任。在工具推广中，这种稳定性与容错机制尤为关键。如果 AI 结果不稳定，用户信任的建立就非常困难。

算力问题也是一个重要因素。算力影响的不仅是能力，还有使用体验。模型响应越快，用户容忍错误的意愿就越高。比如从原先 2 分钟的生成降到 10 秒，即使结果出错，试错成本也低；但若等待 5 分钟仍出错，用户体验就会极差，负面反馈也更多。

从数据来看，AI 使用率差异巨大：有的用户 AI 参与率能达到 50%，有的不足 10%。我们分析发现，很多低效使用者的问题在于提示词太简单，只给出一个关键词或一句模糊话，导致模型误解意图、输出偏离目标。这种不当使用也加剧了体验差距。

我们常收到反馈称“AI 生成结果不对”，但很多时候问题在于输入模糊。为此，我们尝试在相同项目中预置模板或规范，提前定义依赖与规则，以减少 AI 发散造成的偏差。

观众：用好 AI 做研发，对人员的能力模型是什么样的？

吴朝雄：以测试领域为例，首先面临的问题就是“提示词工程”的理解。作为产品经理，我经常对接测试需求方，发现他们在使用我的 AI 工具或自动化测试平台时，往往在提示词能力上存在明显短板。

在我看来，提示词工程的概念类似于“用户故事”。从产品视角来看，一个完整的用户故事需要把需求讲清楚，包括在什么角色、什么场景下，要解决什么问题，达成什么目标。提示词也是如此，应包含角色、场景、目标、任务等元素。提示词其实是一种“角色扮演”，你要让模型理解你的意图，就要让它进入特定角色，比如“作为某领域的专家”，让模型在特定规则与业务逻辑下执行任务。

要让大模型正确理解你的指令，关键在于让输入的结构足够严谨、颗粒度足够细。比如定义“角色”时，要明确是产品实习生、助理、高级经理还是总监。不同角色视角不同，模型的解读结果也会不同。因此，第一个重要能力是写好提示词，而这需要持续的刻意练习与训练。

第二个关键能力是“知识工程”。在研发领域，要让模型真正理解业务、帮助推动业务，就必须让它熟悉组织的知识体系。例如团队的流程规范、协作规范、人员管理、度量标准等。虽然这些在现实中可能以默认规则存在，但对模型来说，必须被整理成明确的文档，让它能够学习和引用。因此，使用 AI 的人需要具备撰写清晰、可拆解、可被模型理解的知识文档的能力。要为模型提供一套公开、可参考的方案，让它能基于这些资料进行模拟与推理。模型最擅长的不是从“无”到“有”的创新，而是基于已有知识进行“有到有”的推理。

颜志杰：对于想要变得优秀的人来说，这是最坏的时代，因为你原有的技能一个都不能丢。AI 还没有彻底改变工作范式，该懂代码的依然要懂代码；但同时这又是最好的时代，因为门槛变低了。很多过去需要花费大量精力的事情，现在借助 AI 就能高效完成。那些原本不会编程的人，若能善用 AI，效率甚至能超过传统开发者。因此，关键在于你如何认知这个时代、如何定义自己想成为的人，再去决定你的能力模型和发展路径。像提示词工程、知识工程等能力，都是不可或缺的。

吴朝雄：就像测试工作一样，要让模型理解你的规范，首先要把知识沉淀下来，而这些沉淀必须来自实际业务的经验，而不是由 AI 自己生成的。这些业务实践包括用例管理规范、代码管理规范、用例设计方法、代码设计原则等，都是研发人员必须掌握的基本知识。在此基础上，再去学习和掌握 AI 相关技术栈，并思考如何将这些技术与业务场景结合。要真正用好这些技术，就需要投入时间去理解、消化，并在实践中不断优化。

观众：现在大模型的应用的技术栈都是 java 或者 python 的，百度内部使用的什么技术栈？

颜志杰：我认为模型的技术栈与百度内部使用的技术栈并不存在直接关系。举例而言，搜索相关的程序可能是用 C++ 编写的，云端的程序则多用 Golang 编写。但这两者的角色不同，一个是模型的生产方，另一个是模型的应用方。生产方使用什么语言实现模型，并不会影响应用方使用什么语言来调用或集成。对于应用方而言，无论模型是用于补全 Golang、Java 还是 Python 代码，其效果在当前模型体系下基本是一致的。

4 从“工具”到“协作者”

吴朝雄：最近一个很明显的趋势是，行业似乎从“AI 助手”在走向“智能体协作”。在你们的经验里，什么事情是原先的 AI 助手做不到，但智能体能做到的？

杜沛：在我看来, 最大的区别在于"闭环能力"——AI 助手更多是单点辅助, 而智能体可以串联起完整的开发 - 测试 - 审查流程。具体来说，从人工编写到 AI 编写，再到 AI 自动测试，最后由人进行结果审查与逻辑核对。这个方向无疑是未来的趋势，也是一种理想化的人机协同模式。AI 参与写代码的关键问题在于如何保证生成代码的质量，特别是在业务开发中满足逻辑性和可靠性的要求。

我们希望 AI 不只是做演示级别的 Demo，而是真正能满足产品开发的实际需求，产出可维护性强的代码，而不是仅仅能“跑起来”的代码。如果生成的代码逻辑混乱或难以理解，后续维护人员需要重新阅读和分析，会带来额外的负担。因此，AI 生成代码必须达到人类开发者可接受的标准，确保逻辑清晰、约束合理，才能真正降低人力成本。

在测试环节，AI 测试与传统人工测试的关注点也不同。传统测试主要关注结果正确性，而 AI 测试由于缺乏完整的运行环境，无法直接判断结果的对错。因此需要为其提供运行环境，帮助 AI 验证代码的构建是否通过、语法是否正确、边界条件是否覆盖等。对于复杂应用，尤其在移动端，还需在真机上运行测试，增加了难度和成本。AI 测试不应仅停留在静态分析层面，而应延伸至动态运行状态的测试，才能形成更完整的闭环，从产品逻辑、代码质量、运行结果多维度提供保障。

如果这一体系能实现动态测试闭环，AI 将能更好地驱动整个开发流程，提升智能体验。这种模式的理想形态高度依赖于大模型能力。目前出现的“世界模型”虽然主要用于机器人，但未来也可能应用到软件开发与测试中。若模型能理解的不仅是文本或静态图像，而是结合视频、操作行为、屏幕显示等多模态信息进行判断，那么开发流程将迎来质的提升。

吴朝雄：你提到整个研发流程会由 agent 协作完成。比如人类仅需输入开发意图，后续的代码生成与自测均由 AI 完成，人只需做最终审核。如果你们团队要实现这种流程的大规模落地，大概还需要多长时间？

杜沛：从目前情况来看，这个目标短期内难以完全实现。按照我的预期，要真正打通流程、形成闭环，至少还需要一年以上的时间。

颜志杰：AI 助手到智能体的演化，本质上是从“动脑、动嘴”升级到“动脑、动手、动嘴”的阶段。AI 助手主要处理思考和语言交互，而智能体则具备更强的自主执行能力。以研发领域为例，像 Devin 或 SWE Agent 就体现了这种形态。它们不再局限于 IDE 环境中的问答式交互，而是能在 DevOps 平台上自动执行任务，如代码生成、测试、验证、提交 PR，甚至在发现问题后自动修复并反馈结果。

这种模式体现出类人的逻辑链条：先观察，再推理，再行动，并持续感知环境变化。它不只是“口头助手”，而是能在异步环境中独立运作的执行体。过去仅依靠语言交互的助手无法完成端到端任务，如自动修复 bug、补全测试用例、执行调试与代码审查，而智能体则能通过自主推理与操作实现这一切。这正是智能体强大的核心，也被认为是未来十年的关键方向。

Coding Agent 代表了通用智能体的发展路径，能独立完成软件研发任务的智能体，其潜力将远超特定工具层面的自动化，因为它更接近人类在物理与逻辑层面的行动模式。

吴朝雄：智能体未来会走向统一的大平台，还是轻量化、插件化的生态？如果你们公司在研发类似产品，会倾向哪种形态？

颜志杰：我更倾向于在当前模型能力的限制下，发展轻量化、插件化的生态。研发场景是一个极其严谨的科学过程，拥有成熟的流程来保证质量与协作。贸然构建“大一统平台”既不现实，也容易脱离实际。更合理的做法是让 AI 以插件形式逐步融入现有的软件研发体系，先观察它在各环节能带来多少改进。当 AI 能稳定接管 50% 以上流程后，再谈平台化整合才有意义。毕竟模型本质是概率系统，稳定性仍需时间和经验积累来优化。如果许多关键环节仍需要人工介入，就不应追求“全能平台”的虚高目标。

吴朝雄：研发流程不仅涉及工具链，还包括人与项目的协作逻辑。这些协作往往在工具层面难以完全体现。当前的 agent 更多集中在单点问题的解决，比如帮助开发者发现或修复 bug。但在 DevOps 层面，未来可能会出现更高抽象层次的 AI 工作台，整合数据检索、任务调度、执行分析等能力。

例如 JIRA 已开始探索 AI 工作台，通过整合 DevOps 数据来实现项目进度追踪、代码库检索、任务完成情况分析、研发效能评估等功能。虽然目前仍以 AI 搜索为主，但雏形已经显现。国内多数产品还停留在单点 agent 阶段，尚未形成上层封装或生态体系。插件化生态仍是当下最稳妥、最现实的探索方向。

观众：程序员使用 AI 生产代码，如何通过代码质量去给程序员打分，有什么参考指标进行绩效考核？

颜志杰：目前几乎没有哪家公司会直接、明确地把“是否使用 AI 编码工具”或者“AI 生成代码的比例”写进绩效体系。原因很简单：大家普遍仍然把 AI 当作一个工具，它的意义是提升效率，而不是成为评估个人好坏的指标。毕竟，AI 生成代码的“量”与开发者真正的“质”之间差距很大。代码多不代表质量高，也不代表问题少。现在确实有很多公司会自上而下推动使用，比如用强制或激励的方式去推广 Code Engine 类工具。

目前也还没有出现那种“因为没用 AI 被扣分”的考核体系。唯一我听说比较激进的案例是 Shopee，他们据说在绩效考核里已经纳入了一些 AI 使用相关的指标，但具体细节我还没深入研究。我的理解是，它更多是鼓励机制，比如“用得好、效果显著的人会得到奖励”，而不是“用得不好就被惩罚”。毕竟，AI 用得少并不意味着你的产出不好。

我们在内部推广 AI 工具时，也遇到过类似的问题。有开发者会问：“那如果我用 AI 生成的代码出了 bug，这个责任算谁的？算我、算 AI、还是算团队？”其实这个逻辑并不成立。你从网上复制一段开源代码，也没人会因此说那部分不是你写的。同理，AI 工具只是一个辅助来源。我们团队目前在绩效体系里完全没有针对 AI 使用或代码质量的直接考核项，因为从逻辑上来说，这两者不能画等号。会用 AI ≠ 结果更好，不会用 AI ≠ 结果更差。考核的核心仍然是你最终的产出与影响，而不是过程里的工具选择。

杜沛：我们会做一些“正向鼓励”，比如内部表扬或展示用 AI 提效的好案例，但不会强制，也不会把它绑定在绩效上。其实如果绩效里写“必须用 AI”，反而会出现反效果，大家可能为了应付指标而“假用 AI”，形式化操作，反倒偏离了效率提升的初衷。所以我们更倾向于通过文化与引导，而不是考核去推动 AI 的普及。

吴朝雄：很多人听到 AI 进入研发流程，第一反应是“那我是不是要被替代了？会不会影响收入？”但现实是，AI 更像是一种角色转变的工具，不是替代的力量。就拿测试岗位来说，AI 确实能帮测试自动生成用例、发现缺陷、分析日志，但测试岗位并不会因此消失，而是转向更高层次的工作，比如验证业务逻辑、优化测试策略、整合分析数据等。AI 带来的不是岗位的消亡，而是岗位价值的重塑。开发和测试都会因此变得更具策略性和创造性。

5 价值与人

吴朝雄：未来两年，哪类工程师的价值会被放大？为什么？

过去编写自动化测试脚本需要人工手动完成，投入成本很高，复杂脚本往往需要数小时甚至半天时间才能写好，因为其中涉及多个请求才能实现一个完整的功能测试。以往测试人员主要考虑如何设计一个准确、可用、能反映业务功能的测试用例。而现在，AI 已经能在很大程度上突破“用例设计”这一难题。原因在于，AI 能直接利用详细的代码和需求文档进行生成。

例如，在接口自动化测试中有接口文档，在 UI 自动化中有页面组件信息，这些元素都可以在前期沉淀好。团队只要做好这些准备，后续在设计测试方案或测试用例时，就不再需要耗费大量时间思考脚本逻辑的构建，而是更关注测试本身能否发挥最大价值。

重点转向“测什么”，也就是每个版本中要验证的代码与功能点。这才是测试人员更具专业性的部分。AI 的引入并不意味着可以不懂代码，反而要求更精通代码。类似地，产品经理的角色也在变化。过去产品经理只需清楚表达逻辑即可，如今若希望模型辅助完成上下游流程，就必须把功能性和非功能性需求都描述清楚，并具备对系统架构的理解。未来产品经理不仅要懂业务逻辑，还需熟悉技术架构与系统关系。单纯掌握局部需求的产品经理将被替代，因为模型已经能根据业务逻辑生成漂亮的需求文档。而具有综合竞争力、能从全局视角解决问题的产品经理，将更具不可替代性。

如果一个产品经理既懂技术、又懂业务与测试，即使每个领域不精通，但具备全面理解，就能在向下游输出内容时发挥不可替代的作用。事实上，AI 的到来让产品角色更为重要。因为随着自动化程度提高，下游环节反而更依赖产品的决策与协调。同样地，对于其他岗位也是如此。以前端为例，基础的页面组件如今模型都能自动生成。但如果前端工程师同时理解后端逻辑与算法，就具备独特的竞争力。这种价值不在于页面是否漂亮，而在于对性能、架构、前后端交互的整体把控。

当你能从架构视角考虑系统设计，具备整体技术思维，这种能力是 AI 无法取代的。因为你不仅懂代码规范，更了解团队系统的整体结构。AI 时代加速了知识学习的深度，也推动各角色从“执行者”向“评估者”或“决策者”转变。当能力提升、知识扩展、角色升级，个人价值也会随之放大。

这种变化不仅限于产品岗位，所有角色都在经历类似的转变。AI 在研发领域的普及会凸显那些具备高水平能力的人，而只掌握基础技能的人可能被替代。要体现自身价值，关键是展示核心竞争力。这不仅包括 AI 使用能力，也包括坚实的基础知识储备。

颜志杰：能熟练使用 AI 的人往往像架构师。架构师之所以重要，是因为他们能理解业务的边界与约束。AI 在小任务上表现出色，但系统层面的设计、分层、异常处理仍需架构师来把控。AI 无法承担系统责任，因此架构师在更高层次上能统筹全局，这种能力尤其重要。

其次，是协作能力。同样使用 AI，有人能比他人高效五到十倍。关键在于是否能清晰地与 AI 沟通任务，让模型理解意图。这不仅是一种思维能力，更是一种“放大效应”。

第三，是持续学习与创新能力。我们要理解“如何做”与“为什么做”，因为技术更新极快，今天的框架明天就可能被替代。最重要的能力，我认为是“品味”。它类似艺术领域的审美判断。未来，当 AI 的供给极其丰富时，真正能体现个人差异的，就是对产品“应该做成什么样”的判断力。正如乔布斯设计手机时所展现的那种独到感知。好的产品设计需要这种品味与调性，而这正是产品经理不可替代的价值所在。

杜沛：AI 虽是概率模型，但若想真正用好它，必须理解其工作原理和局限性。虽然我们无法直接训练模型，但要知道如何高效使用。掌握这种能力能极大提升工作价值。例如，全栈工程师的价值可能更高。过去想要精通多种语言几乎不可能，如今借助 AI，一些原本难以完成的任务也能实现，甚至做得更好。

比如，前端工程师过去需要依赖数据分析师完成数据查询，而现在借助 AI，通过日志查询平台就能快速生成 SQL 查询，无需他人协助。这种方式能显著提升个人能力的边界，使工作成果得到放大。只要你能善用 AI，让它真正帮助你解决以往无法完成的任务，你的价值自然会提升。

正如前面提到的，AI 在研发中目前主要体现为效率提升，但这只是阶段性结果。未来随着模型形态变化，输入方式将不再局限于文本，还可能包括视觉、听觉等多模态信息，届时能实现的功能会更多。只要能真正用好 AI，让它为你所用，你的能力与价值就会被放大，而不是取决于你属于哪一类工程师。

上一篇：重估百度，从忘掉百度开始

下一篇：诺贝尔经济学奖得主迈克尔・斯宾塞：中美 AI 发展“已基本不相上下”

返回列表

热文阅读

1 天前

MWC 2026|展锐芯，让AI无处不在

2 天前

马斯克：你不必为AI失业焦虑 10年内上班将全凭自愿

2 天前