想要做到这一点并不容易,一个最新的漏洞就能击穿一切,任何一个误操作都有可能造成系统紊乱、数据丢失,来自供应链一方的安全隐患没有及时排查也可能让安全建设毁于一旦……怎样才能把隐患控制在可接受范围,一直是企业CIO和运维人员要去思考的问题。
但血泪教训却在不断上演,去年年底,东亚某知名银行网上银行服务就曾连续两天大规模宕机,该银行被称为亚洲最安全的银行,但是因为网上银行服务中断,一度导致数千名客户投诉。虽然银行方快速发声回应,承诺客户存款和资金安全,但其仍不免背负不良负面效应。
在各类企业当中,以银行为代表的金融机构是对安全要求最高的行业之一,但哪怕是安全性最高的银行,也难免在日常运营中遇到各类隐患,甚至会对系统造成影响进一步导致在线业务宕机,在不可接受的同时,又应如何避免类似事件的发生呢?
业务系统故障通常会长时间宕机 快速恢复为何这么难?
该银行对外公开披露信息极为有限,所以外界很难得知该次宕机的真正原因,但从业务系统恢复时间以及发生连续宕机来看,更像是运维团队排查问题进行手动恢复而引发的业务中断。
“由于存在两天间断性的业务系统故障,其情形可能更加复杂,但灾备系统失效在此次事件当中值得深思,如果是人工解决逻辑故障,极易引发次生灾难,该银行在系统恢复过程中发生的连续故障似乎验证着这一判断。虽然我们无从得知具体原因,但事件造成的结果足以给关键信息系统相关行业敲响警钟。”致力于企业数据、业务系统保护的CloudWonder嘉云联合创始人任嘉曦向安全419表示。
他在接受采访时告诉我们,一旦企业关键业务系统出现故障,宕机是必然结果,甚至是要被迫接受长时间宕机。无论是黑客攻击导致,还是人为问题,又或是硬件级的物理故障,凡是以运维团队手动恢复或协调供应商一方共同参与恢复过程的,都会很难确定恢复时间,这期间最大难点是要在既定时间内找到问题发生的原因,因为存在种种不确定性,预期的恢复时间也就没有真正的标准可供参照。
相比之下,更为致命的是在生产平台上直接进行恢复不仅需要极高的技术实力,更需要决断的勇气,因为我们通常要先证明应急手段是可行的,所以通过人工解决逻辑问题的方法,一定需要大量时间来进行验证,这自然会导致宕机时间加长,虽然这一点大家都不愿承认。
年前的热播剧《输赢》当中就曾出现过某物流系统故障的戏码,虽然过程是为了戏剧冲突略显夸张,但如果被迫采用系统重构,再从数据备份恢复初始状态,24小时可以完成第一批数据迁移,全部完成需要二三天时间倒确实符合现实,当然具体实现还要看真实数据量。
“所以类似银行这类重要的在线业务系统一旦出了问题,就是伤筋动骨级别的大问题,这是其自身业务连续性的重要性决定的。现在我们回看这个事件,这家银行用两天时间就解决了问题已经是比较理想的结果。”任嘉曦还说到,在CloudWonder嘉云此前接触的真实案例中,某客户的数据库恢复过程经过两天时间行将完成时突然报错,导致修复工作被迫只能从头再来,业务恢复的时间再一次延迟。
因此,要想有效降低甚至规避此类风险所带来的业务中断风险,就必须提前制定可靠、有效的灾备计划,并围绕自身特点部署专业解决方案。
业务宕机不可接受 制定业务连续性和灾难恢复计划是必选项
该银行网上银行服务宕机事件如果以国内标准衡量,一系列监管处罚自然在所难免,这对于银行自身造成恶劣影响之余,恐怕相关责任人也需要承担相应责任。通常来讲,制定业务连续性和灾难恢复计划是CIO的责任,如果故障发生导致的后果被评估为严重等级,这个锅CIO必须要背。
制定业务连续性和灾难恢复计划一定是全面的,可执行的,任何形式导致业务系统数据丢失、业务停摆都是不可接受的。任嘉曦认为,除了事前的安全建设,也应配备更有效的灾备恢复系统以保证在遇到故障时可以为各类在线系统和数据提供再生恢复。
911事件发生之后,身处世贸中心的两家银行面临的就是截然不同的结局,同样是数据中心被毁,一家半年之后宣布破产清盘,而另外一家因为在几十公里外做了数据备份,得以存活下来。这一事件让银行业深刻认识到了灾备建设、数据备份的重要性。
任嘉曦强调称,灾备不是备份,如果企业在事后机制上采用更加传统的数据备份去规避安全风险,从技术上讲已经是一种落伍行为。备份最大的问题是时效性太差,对于业务频繁的在线系统尤其如此,它只能作为应急的修复方案,比如企业遭遇不可抗拒的数据损毁时,数据备份的价值所在才能有所展现,但风险仍然可以预见。
以勒索攻击为例,为什么有的企业最终会选择支付赎金,其背后多数是源于备份数据的恢复过程极为缓慢,必定影响业务系统宕机时长,同时因为时效性差,也会导致数据“不可用”,甚至会出现备份的数据也被加密。关键业务系统的价值通常大于赎金价值,这是企业开始对勒索软件攻击组织低头的重要原因,因为从某种角度上而言,业务连续性就是企业的生命。
现代化的灾备系统是保障业务不宕机的高超后招
同时任嘉曦也告诉我们,传统的灾备更多的是针对站点损毁的物理级灾备,比如火灾、地震等,实际上发生类似灾难的概率不足1%。相比之下,对业务系统影响最大的是逻辑故障,占比甚至超过60%,这其中包括人为故障、网络攻击(如勒索软件攻击)等,此时传统灾备系统就会出现失效问题。
此前我们已就灾备这一话题做过几次探讨,其中灾备有效性也被包括本文在内的内容数次提及,嘉云在这方面的解决办法也是让我们印象深刻,他们为此首创提出的主动式容灾理念在实际应用中的有效性表现到底如何呢?就这一话题我们同任嘉曦再次进行了沟通。
据他介绍,基于CloudWonder嘉云长年专注在数据保护领域的经验以及同客户的交流,不难发现在传统的意识当中,救灾往往是在发现问题之后才进行,但如果告警机制缺乏或者运维机制不完善,有可能导致备份数据被覆盖,造成无法挽回的后果。这也是部分部署有传统灾备方案的企业在遇到问题时不敢轻易启用容灾的根本原因。
而倡导“主动侦测、自我恢复”的主动式容灾理念则正是为有效解决这些痛点需求的新思路,相比之下,它会更加符合为客户现代化的业务系统提供多重因素下的安全保障。
具体而言,这一理念是通过智能识别技术,第一时间侦测到主机业务故障发生的情况,并在业务恢复平台中,全自动实现容灾恢复,同时通知用户。如此一来,就可以大幅降低传统被动式数据保护所存在的复杂、耗时、易出错等弊端,为用户业务连续性、数据安全提供更智能化的保护手段。
在这一理念支撑下,其相关的产品——NaviClouDR主动式数据保护系统也已落地应用。
同样以勒索攻击为例,我们了解到,NaviClouDR已经完全做到一旦侦测到勒索病毒攻击,就会即刻告知用户,在灾难发生的时候自动地将灾备系统完成恢复并且就绪,这一方面防止了勒索病毒数据向容灾端同步和覆盖,另一方面节省了用户恢复数据的时间,用户仅需要考虑如何使用。
进一步了解得知,在类似的业务系统出现故障问题时,NaviClouDR拥有的瞬时恢复能力(RTO的响应时间趋近于0)将为用户的业务系统连续性提供根本保障,同时强调数据的完整有效。这一安全能力不仅仅应用于容灾恢复场景,对于企业不同业务的大规模迁移同样适用。比如说某一业务系统需要快速部署上云,NaviClouDR就可以为其提供快速迁移的服务。
“这一能力完全取决于NaviClouDR原生为云计算模式所构建,它与云平台深度融合的同时可以兼顾传统数据中心场景,不管目标端是数据中心、私有云还是公有云都能够实现高效和标准化的容灾保护。”任嘉曦告诉我们。由此可见,为业务系统实现不同平台的异构迁移也是该产品的拿手本领之一。
企业业务与数据得不到保护,无异于“自杀”行为
行业专家表示,进入数字化时代,数据将成为商业竞争的核心优势,对于那些没有实施数据安全保护措施的公司,其中60%将在发生灾难后2-3年间破产。其所说的灾难指的就是自然灾害、系统故障、病毒攻击和人为错误等等。
2021年3月,欧洲最大云服务公司 OVH机房着火,超过360万个网站瘫痪,大量客户数据无法恢复;2019年,美国第一资本银行遭黑客入侵,逾1亿用户信息泄露,公司股价大跌。
相比之下,勒索攻击的发展趋势更为恐怖,有机构统计,在2021年,平均每11秒就发生一次勒索攻击,全年累计将超过300万次。近年来倒在勒索攻击之下的企业、组织也是不计其数,大到跨国集团,小到路边商超都是被攻击对象。
Gartner就曾研究指出,企业应该担心的不是勒索软件攻击是否会发生,而是何时会发生。
在政策合规层面,2017年实施的《网络安全法》及2021年实施的《数据安全法》,对网络运营者、关键信息基础设施运营者以及参与数据处理活动的相关主体,提出了容灾备份、保障数据安全的要求,并规定了相关的法律责任。同时各行业还有更加具体的落地性质的政策法规监管。未来,政策合规与内生刚需将双重驱动安全的不断跨越,企业必将越来越重视足以影响自身生命的各种安全隐患问题。
在这样的一个趋势面前,我们认为,以CloudWonder嘉云NaviClouDR主动式数据保护系统等为代表的新一代灾备产品和技术应用,或许将成为各类企业未来的优先选项,在当前蓬勃发展的数字化转型进程中,为企业的在线业务提供连续性保障,以及主动的提供数据保护与恢复服务。