AI时代下的新运维:从“救火队员”到“数字医生”的范式革命
14 小时前 / 阅读约10分钟
来源:C114
传统IT运维面临海量数据、被动响应、故障预测无能等痛点,AI智能运维(AIOps)通过运维平台、AI智能体、运维机器人三位一体架构实现转型,广东联通与广州申迪推出智能机械臂AI运维机器人。

本文为专访广东联通公司黎宇和广州申迪公司郭承志

在数字化转型的命脉与日益复杂的IT系统深度绑定的今天,支撑这一切的IT运维领域,却仍在传统的泥沼中挣扎。直到人工智能技术如洪流般涌入,为这片泥沼带来了颠覆性的曙光。一场从“人力密集型”到“AI驱动型”的运维范式革命,正由广东联通公司与广州申迪公司的专家们领衔揭开序幕。

黎宇作为正高级工程师、联通集团云计算 B 级专家、集团科创委云计算专家、广东联通云计算领域专家人才。他长期主导算力网络、云网安全等省部级核心技术攻关,相关成果获得集团级、省部级、行业级奖项超 10 项,累计授权发明专利14项。他所在的中国联通广东省分公司,拥有覆盖全省的现代通信网络,是集团内创新最活跃的省级分公司之一。

郭承志拥有近25年ICT行业管理知识与经验,参与了多个运维机器人行业标准的制定工作。他所在的广州市申迪计算机系统有限公司,是国家高新技术企业、广东省智能数据工程技术研究中心,在机房智能运维机器人和AI智能体研发领域处于市场领跑地位。

一、 困局与痛点:传统IT运维的“不能承受之重”

在云原生、分布式架构成为主流的今天,许多企业的运维团队反而感到越来越力不从心。传统运维模式在面对这种技术演进时,暴露出的最根本、最亟待解决的结构性问题到底是什么?

黎宇:在谈论未来之前,我们必须正视当下的困境。传统IT运维,通常表现为“被动响应”“人力堆砌”,其核心痛点可以归结为以下几点:

1.  海量数据与人力分析的矛盾:随着微服务、容器化架构的普及,一个系统每天产生的日志、指标、追踪等运维数据可达TB级别。运维工程师如同在信息的海洋中寻找一根针,依靠经验和有限的脚本工具,难以从海量噪音中精准定位故障根源。

2.  被动响应,“救火式”运维的恶性循环:传统运维模式大多是“报警-响应”的被动模式。运维团队终日忙于“救火”,身心俱疲,却无法从根本上解决问题。这种模式使得团队没有精力和时间去进行架构优化、性能调优和自动化建设等更有价值的主动工作。

3.  故障预测无能,业务风险高企:传统监控工具主要基于阈值告警,无法识别复杂、隐性的性能退化趋势。往往是业务已经受损,报警才姗姗来迟。缺乏事前预警和预测性维护的能力,使得系统故障犹如“灰犀牛”,明知存在风险却无法规避,给企业带来巨大的经济损失和声誉风险。

4.  知识孤岛与专家经验依赖:运维知识往往沉淀在个别资深工程师的头脑中,难以复制和传承。一旦人员流动,宝贵的经验也随之流失。新员工上手慢,故障排查效率低下,形成了严重的人才瓶颈。

这些痛点清晰地表明,依靠传统的人力和工具,已经无法应对云原生、分布式环境下日益复杂的IT系统。运维转型,不是选择题,而是生存题。

二、 破局与转型:驶向AI智能运维的新大陆

正是基于对上述痛点的深刻共识,郭承志提出,破局的关键在于一场从理念、技术到组织的全面升级——即转向AI智能运维(AIOps)。

郭承志:AI技术的成熟,为解决传统运维的沉疴痼疾提供了全新的工具箱。AI智能运维(AIOps)应运而生,它并非简单的“运维工具+AI算法”,而是一场从理念、技术到组织的全面升级。

AIOps的核心在于,将运维人员从重复、繁琐、低价值的数据处理和初级响应中解放出来,转而专注于战略规划、架构设计和复杂问题决策等高附加值工作。它标志着运维的角色从“系统保姆”向“数字医生”乃至“系统规划师”的转变——不再是等“病人”生病,而是通过“定期体检”(持续监控)、“健康预警”(预测分析)和“精准手术”(自动化修复)来保障系统的“数字健康”。

要实现这一转型,必须构建一个三位一体的核心架构:综合运维平台 + AI智能体 + 运维机器人。

广州申迪公司在IT业界率先推出全栈自研自主创新的“综合运维平台+ AI智能体+运维机器人”的申迪智维(S-AIOps)产品和服务。它是运维服务领域的重装合成旅,将引领IT运维服务从传统的小米加步枪式服务,迈进AI智能运维服务的新时代。

三、 AI智能运维的核心架构:三位一体的图景

申迪智维S-AIOps架构图

1. 运维平台:智能的“数据中枢与决策基石”

这是AIOps的基石。它不再是一个个孤立的监控、日志、APM工具,而是一个统一、融合的可观测性平台。它的首要任务是全链路、多维度地采集和融合数据,包括:

(1)指标数据:CPU、内存、磁盘IO等系统指标。

(2)日志数据:应用、系统、安全日志。

(3)追踪数据:分布式调用链追踪信息。

(4)网络数据:流量包、网络设备状态等。

(5)业务数据:订单量、用户活跃度等关键业务指标。

这个平台通过强大的数据处理和关联能力,将原本碎片化的信息整合成一个统一的、上下文丰富的“数字孪生体”,实时映射整个IT系统的健康状况。它为上层的AI智能体提供了高质量、标准化的“食粮”。

2. AI智能体:智能的“大脑与专家系统”

这是AIOps的灵魂。AI智能体是构建在运维平台之上的算法引擎和决策中心,它由多个AI“子脑”协同工作,实现运维的智能化。

(1)异常检测与预警:利用无监督学习、时间序列分析等算法,AI智能体能够学习系统在正常状态下的行为模式,并实时识别出微小的、偏离模式的异常点。它能够发现人眼和阈值无法察觉的“软故障”,在影响业务前发出预警,实现“治未病”。

(2)根因分析:当故障发生时,AI智能体能够自动分析故障时刻的拓扑变化、指标波动、日志错误等信息,通过图算法、因果推断等技术,在数秒内精准定位到故障的根因(如某个宿主机上的某个容器实例),并将分析结果推送给工程师,将平均故障定位时间从小时级降至分钟级甚至秒级。

(3)容量预测与规划:基于历史数据和业务趋势,AI智能体可以预测未来的资源需求,自动给出扩容或缩容建议,甚至触发自动化流程,实现资源的精准管理和成本优化。

(4)智能告警降噪与关联:它能将同一根因引发的海量冗余告警进行压缩、去重和关联,生成一个清晰的“故障事件”,彻底改变“告警风暴”的困扰,让工程师能立即抓住问题核心。

AI智能体,本质上是一个永不疲倦、拥有强大记忆和关联分析能力的“超级专家”,它将资深工程师的经验模型化、算法化,并7x24小时守护系统。

3. 运维机器人:智能的“手与脚”

这是AIOps的“执行层”,是将AI决策落地的实体。它分为两类:

(1)软件机器人(RPA):主要指自动化脚本和流程引擎。当AI智能体完成诊断并给出处置方案后,软件机器人可以自动执行预设的修复剧本。例如,自动重启异常服务、隔离故障节点、进行负载均衡切换、执行合规性检查等。它将“诊断”与“治疗”无缝衔接,实现故障的自愈。

(2)物理机器人:在数据中心等物理环境中,物理运维机器人开始崭露头角。它们可以替代人力,执行巡检、设备指示灯识别、资产盘库、线缆插拔乃至简单的硬件更换工作。它们与AI智能体联动,AI“大脑”发现某台物理服务器硬件故障,可直接调度物理机器人前往指定机柜执行更换操作。

运维机器人的普及,标志着运维自动化从“流程自动化”向“认知自动化”的终极演进,真正实现了“无人值守”的运维操作。

四、 未来已来:拥抱人机协同的运维新纪元

2025年9月12日,广东联通联合广州申迪公司率先推出国内首款自主机械臂AI智能运维机器人。广东联通在广州中新知识城互联网创新基地通信云机房完成机器人首次试运行。项目团队成功突破多维智能体协同作业、高精度机械臂控制与安全防护、复杂环境自主导航、跨层可视与故障精准定位等一系列技术难题,构建起自主可控的核心技术体系,显著提升了系统运行的稳定性与环境适应性,为行业智能化转型提供了坚实的技术底座和标杆实践。

广东联通智能运维机器人研发团队

1. 核心突破点

(1)机房智能巡检:机器人深度融合视频AI算法与多源传感器,边行边检,实时扫描设备状态、温湿度、违规操作及异常行为,一键生成巡检报表,运维效率倍增。

(2)智能体故障自愈合: 机器人与平台无缝实时联动,秒级接收告警、感知需求;依托多模态AI模型秒解复杂信息,自主决策并精准执行故障处置,全流程严格遵循运维规程,闭环无痕自愈。

(3)搭载机械臂自动刷卡开门:首创搭载自主机械臂的AI智能运维机器人,攻克自动化运维“最后一米”难题。广东联通和广州申迪联合研发的智能机械臂融合高精度电爪与多自由度控制系统,可稳定完成刷卡、开门、按键等精细动作,标志着机器人能力由“感知巡检”迈向“主动操作”,真正实现自动化运维的闭环。

2. 功能亮点

(1)精准资产盘点:结合云端机房建模与视觉识别算法,实现设备快速定位、自动识别与信息核对,显著提升资产管理精度与效率。

(2)智能讲解导览:内置标准化运维知识库,支持语音及文本交互,实时解答设备、流程及规范等问题,助力知识传承与培训。

(3)智慧随工管理:依托人脸识别与自动跟随技术,实现施工人员身份核验与全过程记录,确保操作合规可溯;通过5G物联网实现远程低时延控制与实时画面回传,响应迅速,操作精准。

五、结语

从被动到主动,从人工到智能,从孤立到融合,AI时代下的新运维正描绘出一幅波澜壮阔的画卷。以“运维平台”为基石,以“AI智能体”为大脑,以“运维机器人”为手足,一个自我愈合、自我优化、自我管理的“自治运维”系统不再是科幻。对于企业和每一位运维从业者而言,主动拥抱这场变革,积极投身于这场从“救火队员”到“数字医生”的升级之旅,不仅是提升效率、保障稳定的必由之路,更是在激烈市场竞争中赢得未来的关键筹码。