博睿数据-博睿数据×国泰海通证券：以AI可观测之力实现AI应用可见、可解、可控

传统运维体系无法适配AI应用的概率性与不确定性，AI可观测让系统“看得见、看得清、看得懂”，赋能企业快速定位问题，将AI应用的成本、质量、风险纳入可控范围，支撑AI规模化落地。

6月11日，博睿数据「AI可观测功能深度解读与价值洞察」线上研讨会圆满结束。本次研讨会聚焦AI时代企业可观测体系升级痛点、落地场景与未来趋势，特邀国泰海通证券可观测建设负责人朱海江，与博睿数据产品总监贺安辉展开双向深度对话，结合金融行业实战经验与前沿技术理念，拆解AI可观测核心价值，为企业智能化运维转型、AI应用落地提供全新思路与实践参考。

研讨会嘉宾：

AI时代，可观测性面临哪些新挑战？

贺安辉：当前，AI 大模型应用正在以前所未有的速度进入企业 IT 系统——无论是金融、证券还是互联网行业，AI 已经从"试验性项目"变成了真实运行在生产环境里的能力。

但随之而来，有一个问题越来越突出：AI 应用和传统应用不一样，不确定性更强、链路更长、成本更高，出问题也更难定位。

今天博睿数据特邀国泰海通证券可观测性建设负责人朱海江，从实践角度聊聊：AI 可观测到底是什么，它能帮企业解决哪些问题，以及未来会走向哪里。

朱海江：国泰海通证券在推进智能运维和数字化转型的过程中，对可观测的依赖越来越强。我们目前采用博睿数据的Bonree ONE平台，将应用、基础设施、业务指标统一拉通，这种全链路视角显著提升了问题排查效率。不过，随着AI应用的接入，原有可观测思路确实显得有些力不从心。AI可观测与传统可观测最本质的区别在哪里？

贺安辉：传统可观测的核心是"确定性系统"——代码逻辑固定，只要链路可见、指标可采，基本上就能定位问题。

但AI系统是"概率性系统"。同样一个请求，不同时间给大模型，可能得到不同的回答。它的问题不再只是"崩没崩、慢不慢"，而是：

• 回答质量怎么样？

• 消耗了多少 Token？

• 是 Prompt 写得不好，还是模型能力有上限？

• 多个 Agent 协同的时

候，哪个节点出了偏差？

所以 AI 可观测要新增三个维度：模型层的调用质量与成本、应用层的 AI 链路追踪、业务层的 AI 效果评估。这是传统可观测体系里没有的。

AI可观测的核心场景与落地价值

朱海江：如您所述，这三个新维度确实十分必要。在实际落地中，AI可观测最典型的应用场景是什么？作为金融IT从业者，我们能直接应用哪些能力？

贺安辉：以下介绍三个最典型的场景。

场景一：AI 应用全链路追踪。

目前许多企业在构建RAG（检索增强生成）或多步Agent应用，一次用户请求背后可能经过向量检索、多次大模型调用、工具调用、结果合成等多个环节，整条链路可达十几个节点。一旦出现回答质量差、响应慢或成本超预期，传统日志难以快速定位问题环节。AI可观测的链路追踪正是要将这条链路完整可视化——每个节点的耗时、输入输出、Token消耗、模型版本等信息一览无余。贵单位是否有类似场景并遇到过此类困扰？

朱海江：我们也在推行“All in AI”，背后接入的就是大模型，比如用来做架构评审等。但偶尔会出现回答偏差或响应很慢的问题，目前定位这类问题基本靠人工翻日志，效率很低。您提到的链路追踪如果能落地，确实能解决我们的痛点。

贺安辉：场景二：模型调用成本与质量监控。

大模型并非免费，Token即为成本。企业部署AI应用后，很快会面临以下问题：本月AI应用总支出是多少？哪个业务线消耗最高？是Prompt过长，还是调用频次过高？

AI可观测平台可将每次API调用的Token消耗、模型版本、调用来源等记录下来，形成可视化的成本看板。同时，还能监控模型响应的质量指标，如首Token响应时间、完成率、错误率。这对金融机构尤为重要——AI应用的成本管控与质量保障既是合规要求，也是IT负责人向业务方提供关键数据的依据。

朱海江：这一点非常重要。成本层面管理层十分关注，如果AI的投入产出比不清晰，推广会面临压力。不过，仅靠成本数据还不够，业务方更关心的是：这个AI应用究竟有没有用？回答质量是否合格？这些如何衡量？

贺安辉：您的追问非常关键，这正是第三个场景：AI效果评估与反馈闭环。

评估AI质量确实存在难度，因为“回答好坏”不像接口响应时间那样有客观数值。我们的思路分两层：

第一层是自动化的技术指标——如模型的幻觉检测、答案相关性评分、上下文忠实度，可通过评估模型自动打分。

第二层是业务反馈数据——收集用户的点赞、点踩、修改行为等，并与AI链路数据关联分析，找到“质量差”的具体原因，进而反馈给Prompt优化或模型迭代。

由此形成完整的AI质量闭环，不仅是被动监控，更是主动改进。

国泰海通证券的可观测实践与AI前瞻

贺安辉：以上介绍了Bonree ONE AI可观测的新能力，也想了解您在实际工作中的感受。比如，国泰海通证券在推进全链路可观测的过程中，从立项到真正落地，最难突破的是什么？

朱海江：国泰海通证券的可观测建设曾经历一段弯路。早期各系统各自为政：APM一套、日志一套、基础设施监控另一套，数据割裂，排查问题时需频繁切换系统，效率低下且容易遗漏关联信息。我们选择博睿数据Bonree ONE的核心原因，在于它能够将这些数据统一纳管，形成真正的全栈视角。落地后有几点感受：

第一，统一数据底座非常关键。数据打通后，关联分析才有意义，否则空有数据而缺乏上下文，依然难以解读。

第二，可观测必须与故障处置流程相结合才能产生价值。仅有大屏和告警不够，一线工程师需要在处置问题时直接运用可观测数据做决策。

第三，推广落地是一个持续的工作，而非部署完成即结束——需不断优化告警规则，持续培训团队。

贺安辉：您总结的三点非常具有代表性。特别是“统一数据底座”，这也是AI可观测能力的前提。

如果企业的可观测数据仍然碎片化，AI分析将缺乏足够的上下文，给出的建议也会片面。因此，建议企业在引入AI可观测能力之前，先完成传统可观测的统一，以此作为地基。地基打好之后，AI能够承担更多任务——自动根因分析、异常预测、智能告警降噪，乃至自然语言查询。运维工程师无需编写PromQL或SQL，直接提问“最近三天哪个服务的P99延迟在恶化”，AI即可直接给出结果。

朱海江：关于自然语言查询，我们团队的工程师对此非常感兴趣。但我有一个顾虑：金融行业对数据安全要求极为严格，如果AI能够自由查询运维数据，权限管控如何落实？数据是否存在泄露风险？

贺安辉：博睿数据在设计AI可观测能力的时候，安全是内嵌于体系之中的，而非事后补丁。具体包括：

第一，所有AI分析均在私有化部署环境内进行，数据不出域；大模型调用也支持接入私有部署的模型。

第二，自然语言查询背后设有权限映射机制——用户能查询和查看的内容完全继承原有权限体系，AI不会绕过权限。

第三，所有AI查询行为均具备完整的审计日志，包括查询人、查询时间、查询内容等，可满足合规审查的全过程追溯。

因此，安全是博睿数据作为企业级能力的基础要求来设计的，而非可选配置。

未来展望：AI可观测的演进路径

朱海江：综合来看，AI可观测确实是一项系统性的能力升级。请问一个更宏观的问题：您认为三到五年后，可观测领域会演变成什么形态？AI会彻底改变运维的工作方式吗？

贺安辉：我从三个层次回答。

第一层，短期内（一到两年）：AI可观测将成为可观测平台的标配能力，如同现在的告警、日志一样。智能降噪、自动根因分析、成本可视化等将作为基础功能。
第二层，中期（两到三年）：可观测平台将从“被动感知”走向“主动干预”。AI不仅指出问题所在，还能在问题尚未暴露时作出预测，甚至自动触发修复动作——这是从AIOps迈向自愈系统的关键一步。
第三层，长期（三到五年）：可观测将与AI应用开发深度融合。“可观测性”不再是部署完成后的附加工作，而是在AI应用设计阶段即内嵌于其中。开发、测试、运维的边界将日益模糊，整个IT生命周期都将在可观测体系中运转。

朱海江：您描述的图景我非常认同。从国泰海通证券的视角出发，我们当前的全链路可观测建设，正是在为迎接这一变革奠定基础。

内部已开始探讨如何将AI能力引入运维工作流——不是为了替代人，而是让工程师将精力投入更具价值的事务，如架构优化、容量规划，而非每日疲于应对告警。

因此，我们对AI可观测方向持积极态度，也期待与博睿数据在这一领域展开更深度的合作探索。

贺安辉：非常感谢海江的分享。国泰海通证券的实践本身就是一个很好的参照——从碎片化到统一底座，从被动告警到主动洞察，这条路走下来之后，引入AI可观测能力的条件便已成熟。

用三句话总结AI可观测：

AI可观测，解决的是AI系统“看得见、看得清、看得懂”的问题。

它的价值，不仅在于帮助运维团队更快定位问题，更在于帮助企业将AI应用的成本、质量、风险纳入可控范围。

它的终极目标，是让AI应用与传统应用一样，能够被自信地运行在生产环境中，而不是一个黑盒。

Bonree ONE AI可观测核心能力深度解读

结合本次研讨会核心研讨内容，博睿数据对Bonree ONE AI可观测核心能力进行了系统性解读与深度阐释。Bonree ONE AI可观测围绕AI应用的全生命周期，提供端到端、一体化的可观测能力，核心能力主要涵盖四大维度，全方位赋能AI应用运维与优化。