江西省联社:容灾系统自动化切换管理平台
来源:第五届农村中小金融机构科技创新优秀案例评选
一、项目背景及目标
随着我社业务的快速发展,为业务系统提供支撑平台的IT信息系统建设也正在逐步完善,我社相关业务运作、经营管理也越来越依赖于计算机网络系统的可靠运行。信息系统服务的连续性以及业务数据的完整性、正确性、有效性等会直接关系到我社的生产、经营、与决策活动。一旦因自然灾害、设备故障或人为因素等原因引起信息系统停顿导致信息数据丢失和业务处理中断,将会给我社造成巨大的经济损失和声誉损害。因此如何确保服务提供的可靠性与连续性,提升我社整体服务水平,是我社信息系统建设面临的重要课题之一。
另一方面,如何让灾备技术架构真正具备应急接管能力离不开有效的灾备体系管理体系建设,包括灾备环境运维、应急手册及预案的梳理以及演练验证等工作,而利用软件工具则可有效降低人力成本,提高效率,让灾备体系“平战结合”的管理理念真正落实到位,从而保障灾备体系具备应急能力。
本期项目通过建设容灾系统自动化切换管理平台,实现我社灾备管理体系的标准化、流程化、规范化、自动化和可视化,保障整体RTO目标,提升我社灾备应急能力。
二、项目方案
1.平台逻辑架构
整个系统逻辑架构设计全面考虑典型指标业务、复杂指标业务、自定义规则各模块,详细架构设计图与业务数据流向图,对模块内部设计方案及模块间的交互设计方案如下:
Worker层:接收切换流程的切换脚本指令,通过指令类型(调用服务脚本、人工交互、内置脚本)完成生产中心、灾备中心各个单元切换下发及结果收集。
Server层:根据切换流程的任务读取,有序的管控、切换指令下发。定期对配置比对项、灾备中心备份、灾备中心告警的实时监控。
Console层:演练或切换过程中大屏展示,完成后生成报告。日常过程中脚本、场景、预案的维护更新。
2.平台技术架构
容灾系统自动化切换管理平台基于Spring cloud组件微服务架构开发。整个系统划分为展现层、负载均衡、接口层、服务层、存储层和执行层。
展现层
容灾系统自动化切换管理平台的建设采用前后端分离的方案实现。前端采用HTML5、Sass、ES6、VUE全家桶、hatech-UI(自定义插件库)等主要的新技术,基于VUE做前后端分离的前端架构、使用ElementUI为前端UI框架、使用Axios调用后台接口API进行数据展示、使用Canvas + Echats做数据可视化。前台采用VUE框架开发,组件化的开发方式,保证系统功能的重用和可扩展性。
服务层
服务层提供所有应用服务,基础服务主要包括注册中心(Eureka)和鉴权服务(AuthService)。基础服务层主要用到技术包括:Spring Quartz Job、Activiti、SMS、JMS、JWT等。
存储层
存储层提供各个服务数据的缓存和持久化存储。主要包括redis缓存集群、数据库集群和消息总线集群。存储层主要用到的技术包括:MySQL、Redis、MyCat、RabbitMQ、Galera Cluster等
执行层
执行层负责把容灾系统自动化切换管理平台的执行指令/脚本下发现被管理资源上去执行、从被管理资源获取信息、下推文件到被管理资源、从被管理资源获取文件和第三方系统接口对接等功能。采集层主要用到的技术和协议包括:JMS、SNMP、SMI-S、CLI(SSH)、RESTFFUL、SDK API和IPMI等。
3.功能架构
在本系统的建设过程中,采用模块化、组件化的建设方式,同时根据我社对容灾系统自动化切换管理平台的整体要求,整个平台分为五个层次,实现全局可视化指挥、灾备体系化管理、灾备一键切换、灾备资源运维、系统管理等功能模块建设,实现灾备切换管理的一体化管理。主要功能如下:
大屏展示、平台门户、签到展示、公告展示。
切换流程管理、切换演练管理、切换界面管理、模板库、切换预案管理、预案双向下来、切换报告管理、知识库。
切换执行、切换控制、切换执行截图。
监控管理、灾备配置比对、切换脚本管理、平台自维护。
日志管理、权限管理、组织架构、白名单。
三、创新点
1.完善的灾备体系建设与管理,符合监管要求
在容灾系统自动化切换管理平台建设过程中,建立了完整的预案体系,包括总体预案和各业务条线的专项应急预案。同时为了满足业务连续性的要求,梳理出来业务之间的关联关系与逻辑关系,为后续的灾备切换演练,灾难发生时能快速切换,灾备中心迅速完成业务的接管,保证了业务的连续,满足相关监管的要求。
2.灾备切换一体化,快速恢复业务,降低RTO
我社之前大多使用人工执行脚本的方式,或借助自动化运维平台的方式进行演练,通过excel表格等文档安排人员协作,误操作风险高,很难减少RTO。在建设容灾系统自动化切换管理平台后,生产数据中心出现故障时可一键启动切换,接管重要业务,减少业务中断时间,降低切换RTO。
3.全视角对灾备资源进行监控与管理
环境配置的一致性、数据复制的状态是灾备管理的重要工作,也是造成切换失败的重要影响因素,容灾系统自动化切换管理平台对关键灾备资源健康状态进行监控,在数据复制视图中实时展现数据复制工具在生产源服务器、容灾目标服务器上的运行状态、复制链路状态,RPO延迟时间,并在实时告警内展示。通过环境检查,保障生产、灾备数据同步正常、配置数据一致,报站环境具备容灾切换条件。
四、技术实现特点
1.微服务架构
容灾系统自动化切换管理平台采用微服务架构,基于SpringCloud生态,结合docker云原生应用容器化,利用K8S动态扩容、动态伸缩推进容器编排,支持应用热部署。支持zuul分布式、高可用网关,支持Eureka、consul等作为服务注册与发现中心高可用集群部署。支持Redis作为数据分布式异地缓存,确保数据零丢失;支持RabbitMQ、Kafka分布式消息队列实现与云平台的兼容性。
2.高可用能力
容灾系统自动化切换管理平台的系统采用高可用架构设计。支持负载均衡架构。以双机或集群方式部署,前端通过Nginx方式访问中台服务。中台服务根据业务压力做高可用部署,访问服务可以自动路由到对应服务。当其中的某个服务出现故障时,通过熔断机制把服务请求自动分配到可用服务上,支持自动容错。各组件均具备不间断服务能力,多个服务器节点间可实现自动互相接管,支持7x24小时不间断运行,规避单点故障,降低故障率。
3.集成丰富的监控能力
在真实切换和演练工作之前掌握生产和灾备环境的综合信息是进行切换决策、保障切换成功的重要基础。容灾系统自动化切换管理平台集成了监控系统资源状态监控能力:支持对灾备系统设备基本状态监控,包括在线状态、关键链路延时等指标获取,支持日常批量自动化巡检灾备设备,支持定时任务;配置比对功能:支持一键对灾备设备进行配置比对,灾备数据一致性比对检查,保证切换环境状态正常;数据复制状态监控:支持对关键复制技术(存储复制、数据库复制)状态监控。所有的监控数据都可以通过大屏进行直观展现。
五、项目过程管理
容灾系统自动化切换管理平台项目于2020年6月启动建设,至2021年8月完成建设,项目过程包含项目启动、需求分析及设计、功能开发、部署实施、联调测试、切换演练等六个工作阶段。
1.项目启动
调度和安排相关项目资源,确定项目工作计划,正式启动项目。
项目启动资源准备:在正式启动前,准备项目实施所需的各方面资源。
确定项目计划:基于工作任务分解,确定项目阶段性里程碑,进而细化确定项目工作计划。
2.需求分析及设计
通过需求调研,明确需求,形成需求文档,并经过确认。
对项目整体情况和环境进行调查,了解应用系统、环境等相关情况。进行需求调研,收集并整理对于软件定制相关的需求,形成需求文档。基于需求调研结果,进行软件定制开发内容的具体技术设计,包括数据库结构设计、软件设计等内容。
3.定制功能开发
按照软件工程的方法,完成开发工作。
系统开发严格按照软件工程的方法进行组织,系统的开发过程按照需求分析、系统分析与设计要求、系统编码、系统测试几个过程有序推进。采用原型及迭代方式开发,根据需求持续改进。
4.软件部署实施
软件开发完成并通过单元测试后在测试环境进行部署,同时对功能进行验证。
在该阶段同时完成了切换流程和梳理和切换脚本的编写。并完成相关切换流程的配置工作。输出平台操作文档。
5.联调测试
完成平台功能验证及脚本验证工作。
6.切换演练
在确保平台功能开发完毕并完成脚本验证工作后进行单业务系统的真实切换演练。输出演练报告和系统评估优化报告。针对演练中发现的平台问题进行针对性优化。
六、运营情况
容灾系统自动化切换管理平台部署上线后迅速投入到了生产活动中,根据我社灾备切换演练计划,从2020年10月起,平台历经数次大小范围的切换演练,并顺利完成。具体切换实施情况如下:
1.2020年10月25日完成了卡系统,卡管系统,安全中心系统的调研与灾备切换的演练工作,切换演练顺利完成。
2.2020年11月22日完成了财富系统,资金业务管理系统的的调研与灾备切换的演练工作,切换演练顺利完成。
3.2021年的3月,5月,7月,8月陆续完成了部分业务系统的切换演练的工作,包括:统一收单系统,ATMP,财富系统-理财销售,资金运营系统,网上银行,手机银行,影像平台,集中作业系统,现金管理平台,信贷业务系统,演练均圆满完成。
通过以上各系统的灾备切换演练,容灾系统自动化切换管理平台都能顺利的支撑相关具体工作,证明了我社在灾备管理体系和平台的支撑下,能够应对各种突发的应急或者灾难事件,保证各个业务系统的业务连续性运行。
七、项目成效
灾难恢复能力的提升和业务连续性体系的建设,离不开常态化的真切实换演练。容灾系统自动化切换管理平台通过自动化手段简化演练准备环节,提升切换效率;与此同时,结合状态监控和评估体系来逐步提高应急响应和综合处置能力。通过三位一体、平战结合等灾备管理思路和方法上的创新,为我社在防范信息科技风险、确保信息系统安全方面取得显著成效。
1.管理效益分析
构建可计量、可验证的灾备管理体系;
通过业灾备管理系统实现过程资产积累、组织赋能;
通过规范化应急响应、处置流程提升业务连续性能力;
通过线上组织跨部门联合演练,不断验证和改进业务连续性管理能力;
规范业务连续管理全过程,满足监管要求。
2.经济效益分析
通过灾备管理平台建设,自动化执行切换流程,有效提升切换、演练工作效率,降低人力成本投入、降低供应商依赖程度。
3.社会效益分析
加快管理理念创新的步伐,提升我社的业务连续性管理水平,保障信息系统的更高稳定高效运行,进一步提升企业形象。
八、经验总结
容灾系统自动化切换管理平台作为重要工具支撑灾备体系日常维护和战时应急处置,其在建设和管理过程中都存在诸多难点,具体如下:
1.场景及切换流程梳理
应急场景及处置流程需要根据实际情况进行梳理;当场景及处置流程规划的越完善则单位应急响应能力越强。
可根据情况梳理整体切换场景和分项应急场景(业务系统维度),覆盖重要应急场景,也可结合灾切平台模板库能力迅速封装新的场景。
2.部署模式及安全
主流灾切平台采用agent(受控端执行脚本)和无Agent(远程执行脚本)方式实现自动化。部署Agent需考虑到探针稳定性及维护工作量问题,无Agent部署则需考虑受控端登录账号密码安全问题。我社结合实际情况采用对接堡垒机无Agent部署模式。
3.上线测试
生产环境无法支撑切换测试,而测试环境虽有一定的参考意义,但难以保障生产与测试完全1:1。基于此上线前需要做好差异化比对分析,并做好相关的应对策略与调整。
4.兼容性问题
灾切平台需具备全环境自动化能力,包括操作系统、应用、数据库、虚拟机、存储、网络/安全设备等。
5.易用性问题
开发及维护相关流程/脚本工作量较大,一部分依赖与人,一部分依赖与平台开箱即用能力,包括普适环境切换脚本、调度API接口、应用切换流程、配置比对文件等。
更多金融科技案例,请登录数字金融创新知识服务平台- 金科创新社(FintechinChina.com)官网案例库查看。
网址:江西省联社:容灾系统自动化切换管理平台 https://mxgxt.com/news/view/189497
相关内容
网站平台必须强化管理江苏省红楼梦学会获评“全国社科联先进社会组织”
江苏省红楼梦学会喜获“全国社科联先进社会组织”
绿水青山带笑颜 ——“两山”理念在江西的生动实践
网站平台必须强化管理(引导粉丝文化步入健康轨道)
构建产业图谱一张“网”指向引路 全国首家省级智慧化工园区管理平台建成运行
福建理工大学主页平台管理系统 许明星
2022年新零售电商平台有哪些?新零售平台系统
【然之协同管理系统 和StarCRM销售服务系统哪个好用】然之协同管理系统 和StarCRM销售服务系统对比-ZOL下载
2023品牌社交媒体精细化管理指南.pdf