软件开发中心
积极推进云医平台建设
助力应用运维转型
为积极推动我行运维转型,保障主机业务下移平台,软件开发中心云计算实验室立足我行实际生产运维经验,对标业界“1-5-10”运维目标(1分钟故障发现、5分钟定位、10分钟恢复),推出云医·故障诊断与分析平台,从监控报警、异常识别、诊断分析、统一展示四方面,切实助力应用提升运维能力,保障线上运行稳定。
看症状——云医平台之监控报警
云医平台汇聚了业务监控、系统资源监控以及分布式服务监控,直观展示云平台整体和各应用系统的运行、健康状况。
做体检——云医平台之异常识别
云医平台支持变更事件捕捉、故障现场保存、辅助巡检分析三大能力,为生产故障诊断分析及根因排查提供有力的数据支撑和应急决策依据,并提前发现隐患,避免先上业务损失。
速诊断——云医平台之诊断分析
云医平台将常用故障排查手段固化为50余种原子诊断能力,以可视化编排方式,沉淀专家经验,联动触发执行,为故障止损争取时间,并结合日常混沌演练与红蓝攻防,不断迭代保鲜。
查报告——云医平台之统一展示
云医平台打通移动端、桌面端视图,提供了双端入口。其中移动端通过可视化“图表+拓扑”的方式,帮助用户实时掌握生产运行状态,为开发与运维人员远近协同故障分析创造条件。
推广成效
云医平台已经全面覆盖新一代云平台,累计录入诊断指标余项,打印异常快照余个,提前发现应用隐患余次,协助70余个应用排查线上问题,多次获得应用支持好评!
未来展望
云医平台的推出,为应用运维填补诊断与分析平台化的空白,为运维转型提供了新的思路。下一步,软件开发中心将进一步完善云医平台基础监控,在数据融合、诊断编排、故障自愈以及智能化方向不断发展。逐步完善我行运维支撑体系,赋能业务发展,向着应用运维1-5-10的目标坚实迈进。
云计算实验室供稿
预览时标签不可点收录于合集#个上一篇下一篇