博睿数据×国泰海通证券:以AI可观测之力实现AI应用可见、可解、可控

2026-06-11



传统运维体系无法适配AI应用的概率性与不确定性,AI可观测让系统“看得见、看得清、看得懂”,赋能企业快速定位问题,将AI应用的成本、质量、风险纳入可控范围,支撑AI规模化落地。


6月11日,博睿数据「AI可观测功能深度解读与价值洞察」线上研讨会圆满结束。本次研讨会聚焦AI时代企业可观测体系升级痛点、落地场景与未来趋势,特邀国泰海通证券可观测建设负责人朱海江,与博睿数据产品总监贺安辉展开双向深度对话,结合金融行业实战经验与前沿技术理念,拆解AI可观测核心价值,为企业智能化运维转型、AI应用落地提供全新思路与实践参考。


研讨会嘉宾:

0(2)

AI时代,可观测性面临哪些新挑战?


贺安辉:当前,AI 大模型应用正在以前所未有的速度进入企业 IT 系统——无论是金融、证券还是互联网行业,AI 已经从"试验性项目"变成了真实运行在生产环境里的能力。

但随之而来,有一个问题越来越突出:AI 应用和传统应用不一样,不确定性更强、链路更长、成本更高,出问题也更难定位。

今天博睿数据特邀国泰海通证券可观测性建设负责人朱海江,从实践角度聊聊:AI 可观测到底是什么,它能帮企业解决哪些问题,以及未来会走向哪里。


朱海江: 国泰海通证券在推进智能运维和数字化转型的过程中,对可观测的依赖越来越强。我们目前采用博睿数据的Bonree ONE平台,将应用、基础设施、业务指标统一拉通,这种全链路视角显著提升了问题排查效率。不过,随着AI应用的接入,原有可观测思路确实显得有些力不从心。AI可观测与传统可观测最本质的区别在哪里?


贺安辉:传统可观测的核心是"确定性系统"——代码逻辑固定,只要链路可见、指标可采,基本上就能定位问题。

但AI系统是"概率性系统"。同样一个请求,不同时间给大模型,可能得到不同的回答。它的问题不再只是"崩没崩、慢不慢",而是:

• 回答质量怎么样?

• 消耗了多少 Token?

• 是 Prompt 写得不好,还是模型能力有上限?

• 多个 Agent 协同的时

候,哪个节点出了偏差?

所以 AI 可观测要新增三个维度:模型层的调用质量与成本、应用层的 AI 链路追踪、业务层的 AI 效果评估。这是传统可观测体系里没有的。


AI可观测的核心场景与落地价值


朱海江:如您所述,这三个新维度确实十分必要。在实际落地中,AI可观测最典型的应用场景是什么?作为金融IT从业者,我们能直接应用哪些能力?


贺安辉: 以下介绍三个最典型的场景。

场景一:AI 应用全链路追踪。

目前许多企业在构建RAG(检索增强生成)或多步Agent应用,一次用户请求背后可能经过向量检索、多次大模型调用、工具调用、结果合成等多个环节,整条链路可达十几个节点。一旦出现回答质量差、响应慢或成本超预期,传统日志难以快速定位问题环节。AI可观测的链路追踪正是要将这条链路完整可视化——每个节点的耗时、输入输出、Token消耗、模型版本等信息一览无余。贵单位是否有类似场景并遇到过此类困扰?


朱海江:我们也在推行“All in AI”,背后接入的就是大模型,比如用来做架构评审等。但偶尔会出现回答偏差或响应很慢的问题,目前定位这类问题基本靠人工翻日志,效率很低。您提到的链路追踪如果能落地,确实能解决我们的痛点。


贺安辉:场景二:模型调用成本与质量监控。

大模型并非免费,Token即为成本。企业部署AI应用后,很快会面临以下问题:本月AI应用总支出是多少?哪个业务线消耗最高?是Prompt过长,还是调用频次过高?

AI可观测平台可将每次API调用的Token消耗、模型版本、调用来源等记录下来,形成可视化的成本看板。同时,还能监控模型响应的质量指标,如首Token响应时间、完成率、错误率。这对金融机构尤为重要——AI应用的成本管控与质量保障既是合规要求,也是IT负责人向业务方提供关键数据的依据。


朱海江:这一点非常重要。成本层面管理层十分关注,如果AI的投入产出比不清晰,推广会面临压力。不过,仅靠成本数据还不够,业务方更关心的是:这个AI应用究竟有没有用?回答质量是否合格?这些如何衡量?


贺安辉:您的追问非常关键,这正是第三个场景:AI效果评估与反馈闭环。

评估AI质量确实存在难度,因为“回答好坏”不像接口响应时间那样有客观数值。我们的思路分两层:

第一层是自动化的技术指标——如模型的幻觉检测、答案相关性评分、上下文忠实度,可通过评估模型自动打分。

第二层是业务反馈数据——收集用户的点赞、点踩、修改行为等,并与AI链路数据关联分析,找到“质量差”的具体原因,进而反馈给Prompt优化或模型迭代。

由此形成完整的AI质量闭环,不仅是被动监控,更是主动改进。


国泰海通证券的可观测实践与AI前瞻


贺安辉:以上介绍了Bonree ONE AI可观测的新能力,也想了解您在实际工作中的感受。比如,国泰海通证券在推进全链路可观测的过程中,从立项到真正落地,最难突破的是什么?


朱海江:国泰海通证券的可观测建设曾经历一段弯路。早期各系统各自为政:APM一套、日志一套、基础设施监控另一套,数据割裂,排查问题时需频繁切换系统,效率低下且容易遗漏关联信息。我们选择博睿数据Bonree ONE的核心原因,在于它能够将这些数据统一纳管,形成真正的全栈视角。落地后有几点感受:

第一,统一数据底座非常关键。数据打通后,关联分析才有意义,否则空有数据而缺乏上下文,依然难以解读。

第二,可观测必须与故障处置流程相结合才能产生价值。仅有大屏和告警不够,一线工程师需要在处置问题时直接运用可观测数据做决策。

第三,推广落地是一个持续的工作,而非部署完成即结束——需不断优化告警规则,持续培训团队。


贺安辉:您总结的三点非常具有代表性。特别是“统一数据底座”,这也是AI可观测能力的前提。

如果企业的可观测数据仍然碎片化,AI分析将缺乏足够的上下文,给出的建议也会片面。因此,建议企业在引入AI可观测能力之前,先完成传统可观测的统一,以此作为地基。地基打好之后,AI能够承担更多任务——自动根因分析、异常预测、智能告警降噪,乃至自然语言查询。运维工程师无需编写PromQL或SQL,直接提问“最近三天哪个服务的P99延迟在恶化”,AI即可直接给出结果。


朱海江:关于自然语言查询,我们团队的工程师对此非常感兴趣。但我有一个顾虑:金融行业对数据安全要求极为严格,如果AI能够自由查询运维数据,权限管控如何落实?数据是否存在泄露风险?


贺安辉:博睿数据在设计AI可观测能力的时候,安全是内嵌于体系之中的,而非事后补丁。具体包括:

第一,所有AI分析均在私有化部署环境内进行,数据不出域;大模型调用也支持接入私有部署的模型。

第二,自然语言查询背后设有权限映射机制——用户能查询和查看的内容完全继承原有权限体系,AI不会绕过权限。

第三,所有AI查询行为均具备完整的审计日志,包括查询人、查询时间、查询内容等,可满足合规审查的全过程追溯。

因此,安全是博睿数据作为企业级能力的基础要求来设计的,而非可选配置。


未来展望:AI可观测的演进路径


朱海江:综合来看,AI可观测确实是一项系统性的能力升级。请问一个更宏观的问题:您认为三到五年后,可观测领域会演变成什么形态?AI会彻底改变运维的工作方式吗?


贺安辉:我从三个层次回答。

  • 第一层,短期内(一到两年):AI可观测将成为可观测平台的标配能力,如同现在的告警、日志一样。智能降噪、自动根因分析、成本可视化等将作为基础功能。

  • 第二层,中期(两到三年):可观测平台将从“被动感知”走向“主动干预”。AI不仅指出问题所在,还能在问题尚未暴露时作出预测,甚至自动触发修复动作——这是从AIOps迈向自愈系统的关键一步。

  • 第三层,长期(三到五年):可观测将与AI应用开发深度融合。“可观测性”不再是部署完成后的附加工作,而是在AI应用设计阶段即内嵌于其中。开发、测试、运维的边界将日益模糊,整个IT生命周期都将在可观测体系中运转。


朱海江:您描述的图景我非常认同。从国泰海通证券的视角出发,我们当前的全链路可观测建设,正是在为迎接这一变革奠定基础。

内部已开始探讨如何将AI能力引入运维工作流——不是为了替代人,而是让工程师将精力投入更具价值的事务,如架构优化、容量规划,而非每日疲于应对告警。

因此,我们对AI可观测方向持积极态度,也期待与博睿数据在这一领域展开更深度的合作探索。


贺安辉:非常感谢海江的分享。国泰海通证券的实践本身就是一个很好的参照——从碎片化到统一底座,从被动告警到主动洞察,这条路走下来之后,引入AI可观测能力的条件便已成熟。


用三句话总结AI可观测:

AI可观测,解决的是AI系统“看得见、看得清、看得懂”的问题。

它的价值,不仅在于帮助运维团队更快定位问题,更在于帮助企业将AI应用的成本、质量、风险纳入可控范围。

它的终极目标,是让AI应用与传统应用一样,能够被自信地运行在生产环境中,而不是一个黑盒。


Bonree ONE AI可观测核心能力深度解读


结合本次研讨会核心研讨内容,博睿数据对Bonree ONE AI可观测核心能力进行了系统性解读与深度阐释。Bonree ONE AI可观测围绕AI应用的全生命周期,提供端到端、一体化的可观测能力,核心能力主要涵盖四大维度,全方位赋能AI应用运维与优化。


  • 服务总览:以服务为单位聚合关键指标,让团队对每个 AI 应用的请求量、错误率、响应性能与资源消耗一目了然;

AI可观测-功能演示(1)_06

  • 性能与成本洞察:通过响应时延、慢调用、Token 消耗与模型分布等多维视角,既能快速定位性能瓶颈,又能持续掌控调用成本;

AI可观测-功能演示(1)_07

  • 全链路追踪:还原从 Agent 到每一次 LLM、工具调用、检索与重排的完整执行路径,逐层下钻精准定位根因,清晰区分是模型侧还是应用侧的问题;

AI可观测-功能演示(1)_13

  • 会话级分析:则把多轮对话串联成完整上下文,从真实用户视角还原交互现场,让问题排查有迹可循。

AI可观测-功能演示(1)_15

在落地部署层面,AI可观测平台主打无侵入接入——通过探针自动采集 AI 调用链路,无需修改业务代码,部署后即可快速完成数据上报与验证,并支持在关键指标上配置告警,实现异常的主动发现与及时触达。


AI 可观测将性能、成本、链路与会话四个视角融为一体,为AI 应用提供统一、深入、可下钻的观测视图,帮助团队把复杂、不透明的 AI 调用变得透明、可控、可诊断,让每一次 AI 调用都有迹可循,为 AI 应用的稳定运行与持续优化提供坚实保障。 


点击下方图片或扫描二维码, 立刻使用Bonree ONE4.0 AI可观测4(2)

新闻动态

立即体验一体化智能可观测平台

欢迎拨打电话咨询

400-680-8085
微信 微信扫码 在线咨询