灾备系统建设方案
一、现状描述及需求分析
客户数据中心采用5台2路服务器部署VMware vSAN集群,核心业务系统虚拟机以及虚拟桌面、文件服务器都运行在VMware上,金蝶ERP和HR系统的数据库单独运行在两台Windows物理服务器上,数据库为SQL Server。其中物理机上的SQL Server数据库采用定期冷备的方式进行备份,而虚拟机系统没有进行任何有效的备份保护。目前整个数据中心需要备份的总数据量约在15TB。
客户当前还有大量系统没有使用专业的备份软件对数据进行保护,部分使用手工冷备方式进行备份,随着客户业务的快速发展,目前这种没有统一备份架构的方式已经不能满足未来IT的发展需求。主要存在以下弊端:
- 备份手段简单,缺乏统一的灾备体系
-
- 当前只备份了核心数据库SQL Server,而且采用的是定期冷备份的方式,只完成了最低层次的数据级备份,没有进行应用层面的保护,大量的业务虚拟机也需要进行备份保护,才能在误操作、感染病毒、恶意破坏、发生故障时快速恢复业务运行。
- 当前手动备份方式,很难进行数据异地备份保存;备份数据单一副本保存,容易被病毒攻击、易损坏、存在较大风险。
- 传统方式备份时间长,恢复速度慢,很难保障RPO和RTO的要求
-
- 备份速度慢,备份时间窗口长,很难保障RPO
- 从备份中还原的速度慢、时间长,在各类灾难发生时,备份系统消耗了冗长的恢复时间,却还是不能保证最少的数据丢失,不能保证在最短的时间内恢复业务运行;
- 需要备份的数据种类多,包括数据库、文件数据、业务虚拟机、虚拟桌面平台,传统的备份方式很难将数据在规定时间窗口内完成备份,并且扫描速度慢,备份慢,对生产影响很大。
- 备份数据有效性没法得到验证
-
- 传统备份方式备份之后的数据副本没有有效的校验手段,无法确保可恢复。当前备份数据的验证需要手工进行恢复演练,过程很复杂,耗费大量人力物力,需要人工去做大量的操作和文档,没有自动化工具简单可靠。
- 传统容灾系统也带来很多烦恼:数据丢失后不可恢复、难以进行容灾演练、灾备中心的应急效率低等等问题。
- 运维管理复杂
-
- 传统备份系统运维管理复杂,需要有专业的技能,甚至原厂的现场实施服务
- 传统备份系统不够灵活,不能很好的满足备份、复制容灾、工作负载迁移、安全合规、数据复用等各种不同场景的需求
- 统一监控问题:
-
- 在数据中心能对生产系统、备份系统的运行状况进行监控管理,及时发现问题,并能进行趋势分析和容量规划、优化改进。
- 虚拟化应用带来的资源集中,灵活和动态调配等优势,同时也为资源的管理带来了众多难题。能否提前发现潜在问题并进行预警,比如疑似勒索病毒攻击?如何能够有效的管理资源,发现资源使用中的问题和瓶颈?如何能够对资源的使用状态进行分析,做出准确的预测和展望?等等都是信息化平台建设和管理者所关注,所希望解决的问题。
综上所述,客户迫切需要建立起有效的数据的保护和灾备体系,在发生各类故障、灾难时及时响应、快速恢复、全力保证业务连续性,成为当前及未来IT建设的重点,成为保证企业可持续发展的关键。
二、项目目标
客户灾备系统建设目标:
- 实现生产机房业务系统和数据的本地备份保护,建立同城灾备机房,并将备份数据复制到灾备机房进行异地备份,关键业务系统实现应用级容灾保护。
- 建立自动化灾备恢复演练平台,确保备份数据和灾备副本可有效恢复。
- 对系统的运维状况进行统一监控管理,及时发现潜在问题,快速定位故障,并能进行容量规划、优化改进和趋势预测分析。
- 建立有效的数据的保护和灾备体系与灾备管理制度,建立容灾演练平台和演练机制。
- 项目具体恢复目标:重要系统RPO<=6小时(恢复到6小时前状态),RTO<=6小时(恢复时间为6小时);一般系统RPO<=24小时,RTO<=12小时);