随着大模型应用越来越多的深入到日常工作生活场景:从AI教育、客户服务、商机互动、文旅推荐、医疗导办到保险咨询,也随着智能体交互日益成为社会经济生活的重要环节,一场隐蔽的安全危机正悄然而来;生成式人工智能对话互动时普遍面临着恶意诱导、隐藏条件等各类风险,对话风险正成为行业AI落地中的“致命暗礁”。
2025年8月27日,公安部第三研究所数据安全技术研发中心依据GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》对国内主流大模型商业化版本开展安全测试,并发布了测试结果[1]。如图一结果显示8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类均超过40%。不难看出,智能体所“仰仗”的各通用大模型本身的安全防护能力普遍不足。

表:测试结果
问题如此严重的原因,是敏感词规则防火墙等现有防御手段已跟不上新式AI攻击手段的迭代:关键词拦截会漏判误判;而主模型在安全训练时,为了不让能力下降过大又很难做到高概率防范。另一方面《生成式人工智能服务安全基本要求》等监管政策对智能体落地应用的安全风险控制“划了红线”;如何严谨又不失效果的解决对话安全风险问题,困扰着所有的智能体开发者。
彩智科技的深知安全团队提出了“一个基于专有模型的大模型对话安全响应框架——深知风控”,深知风控框架(以下简称“深知”)是一个模型组合,它通过“风险精准识别分类+输出权威溯源可解释”协同设计,并以完全不影响 智能体的模型能力的“防火墙”式保护机制,给出兼顾安全与效率的突破性解决方案。同时,深知接口可以让智能体开发者5分钟上手,快速让原智能体获得近100%的安全风险防御能力。

衡量大模型安全的核心标准是实战防御能力。
深知在与Qwen3Guard-Gen-8B、TinyR1-Safety-8B等头部安全模型最新版本进行的专项测评中,从风险识别精度、回复严谨性等方面展现出优势。技术报告中,测评所采用的数据集使用TinyR1-Safety-8B技术报告所公开的测试数据集为主(随机抽取其中2000条英文与2000中文),同时还使用并公开了深知可信团队在实战中积累的100条高风险的数据。
其中,与风险分类模型Qwen3Guard-Gen-8B,按风险召回率测评结果如下(可详见技术报告):

与风险应答模型在TinyR1-Safety-8B的对比评测,使用用TinyR1-Safety-8B技术报告所使用的安全应答的测评标准,结果如下(可详见技术报告):

在公开中英文安全测试集中,面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景,同类模型因依赖静态知识出现政策过时、捏造合规依据、丑闻人物无感知等问题,安全评分仅74%,而深知依托动态可信知识库有接近100%的高风险防护率。
相关测试过程、评测标准、测试数据集及实验结果均已公开发表于前述技术报告与开放平台,评测具备可验证性。
传统大模型安全防御往往在于把风险判定简化为“安全/不安全”的二元选择——要么过度拦截影响体验,要么漏判风险埋下隐患。深知重构安全防护逻辑,建立“安全(Safe)、不安全(Unsafe)、有条件安全(Conditionally Safe)、重点关注(Focus)”的四类体系,有针对性的处置风险。如下:

针对识别出的风险问题,深知提供安全代答,在确保安全的前提下进行交流,输出内容严格符合法规与主流价值观。
代答内容均源自深知全量规章知识库,知识库覆盖全国337个地级及以上城市的法律、政策、行业标准规范、公共服务等领域知识,并保持常态化动态日更新及知识工程化处理;上亿条精细治理的知识点可溯源回复,让每一次响应都有据可查,彻底杜绝信息捏造与“幻觉”问题引发的风险。
同时提供两种代答模式灵活选择:
积极型(active):对各类风险问题进行合规可控的交流回应;可以在电商、旅游、娱乐等智能体中使用,有很好互动性。深知的目标,是让这些平时很大众化的智能体,在碰到用户刻意用“敏感”问题挑战时,及时变身成正能量朋友,不躲避的按主流价值观“娓娓道来”,进行安全又积极的交流。
稳妥型(conservative):适用于政务、司法等严肃场景,部分敏感问题仅输出提示性内容,严守安全底线。尤其是,深知已有案例实战,模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中,取得近100%防护的优异效果。
深知提供简洁易用的API接口与多语言调用示例(Python、cURL等),开发者无需复杂配置,获取api-key后即可快速接入,并集成到现有业务系统,大幅降低风控开发成本。

图:AI智能体安全控制方案对比:传统 vs. 深知风控框架
深知风控DeepKnown-Guard(见上图)代表了一种外部化、低耦合的安全防护新范式,旨在通过API调用实现安全服务的热插拔(Hot-Pluggable),从而彻底解耦安全与业务逻辑。
具体来说,对于那些教育培训、导游导购、医疗康养、客户服务、行业咨询、金融理财等领域大模型与智能体,可以不再为AI对话安全问题而困扰。通过简单调用深知接口,智能体可以先让深知来判断诉求表达的安全情况,在有风险时直接拒答或让深知返回代答回复,并在无风险时自行场景交互。以上过程不仅可在一次调用内完成;还可进一步通过参数配置,使用深知的上下文理解、流式输出、地域识别本地化服务等功能。
对企业来说,大模型安全风控的痛点不仅是“防不住”,还有“用不起”——搭建定制化防护架构、持续迭代加固模型,需要投入资金和人力,并且还容易引起模型处理核心场景时的能力下降。深知将复杂的安全技术转化为“低门槛可随时调用”的服务,大幅降低AI落地成本。开发者无需精通模型安全技术,也不用改造现有系统;只需通过API接口在线调用深知,就能快速激活全套安全防御能力;从而将更多精力投入AI驱动的业务创新。
在智能体开始普及于社会生活主流场景的今天,安全早已不是“附加项”,而是不可或缺的“必需品”。深知安全响应框架以“输入分类+输出溯源”的技术创新实现近100%高风险防御实测结果;并以“安全托底、业务创新”的模式,将加速大模型在教育、零售、金融、康养、文旅等各行业的规模化应用。
深知团队在国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目的成功案例,积累了丰富的AI安全风控经验。如今通过将复杂的安全技术转化为低门槛的 API 服务,深知助力智能体从“追求功能炫酷”向“安全实用落地”的成熟转型,成为智能体进入核心场景的“新基建”。
