博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
阿里巴巴荣获年度最佳BCM创新实践奖
阅读量:5790 次
发布时间:2019-06-18

本文共 1739 字,大约阅读时间需要 5 分钟。

hot3.png

2017年9月,阿里巴巴在国际灾难恢复协会(DRI International)亚洲年度大会上斩获大奖,来自阿里基础设施事业群的全球运行指挥中心(GOC)团队获得“年度最佳BCM创新实践奖”(BCM:Business Continuity Management业务连续性管理)。国际灾难恢复协会(DRI International)亚洲大会是 DRII 在亚洲地区部分国家巡回举办的业务连续性管理年度盛会,宗旨是为亚洲地区的业务连续性管理专业人士提供一个 BCM交流技术、分享经验的平台。

全面保障业务连续运行

阿里经济体业务体量巨大,生态复杂,如何在业务高速增长的同时保证业务稳定连续的运行,对整个阿里都是一巨大挑战。经过多年的积累,阿里沉淀出一整套从故障预防、检测、定位、快速恢复到复盘演练的完整解决方案,并不断优化提升。正是这套解决方案,实现了防止能预见的问题,快速恢复不能预防的问题,不再重复已发生的问题,保证阿里的客户能够拥有流畅的服务体验。

image
图为阿里巴基础设施事业群全球运行指挥中心(GOC)负责人沈乘黄分享《阿里经济体业务连续性解决方案》
业界领先,斩获殊荣

集团的技术人集体为阿里业务连续性付出了巨大而卓有成效的努力,大家在业务连续性建设的探索中遇到的问题以及解决办法,对每种技术深入研究过程中积累的经验,基于对技术深入理解的基础之上进行调优和定制的实践成为了最宝贵的财富。来自阿里经济体这一整套业界领先的业务连续性解决方案,保证了业务可用性长期稳定在99.99%。这一成果获得了DRII的一致认可,并最终斩获“年度最佳BCM创新实践奖”。

image

阿里稳定运行背后的保障团队

来自基础设施事业群的全球运行指挥中心(Global Operations Center,GOC)是默默保障阿里经济体业务稳定运行的代表,肩负着生产系统全局性应急决策与指挥的职责。该组织通过为电商、金融、阿里云等各项业务提供及时准确的告警、生产环境故障的全生命周期管理、重大故障时的快速切换以及线上问题的升级支持,在缩短系统灾难时长和提升消费者体验等方面做出了显著的贡献。

一直以来,GOC从预防、快速恢复到复盘检验等环节全面推进阿里经济体内业务连续性建设。

首先,GOC持续推动系统的容灾和快速恢复的建设,确保各个机房都有同城或者异地容灾的方案,并通过日常演练来检验集群的容灾能力。同时,经由与各个业务部门的密切合作,GOC把各核心系统在极端情况下快速逃生的开关接入统一的平台,真正实现了快速恢复。其次,在业务流量发生波动时,通过自建的嵌入深度学习模型的智能基线系统,GOC能第一时间发现故障并判断处理方式。如果该故障需要人工介入,则会迅速通知相关开发人员上线处理,并实时跟踪进展。在故障处理完毕后,GOC会与业务团队一起进行深度复盘,制定明确的改进措施,并通过模拟故障来检验系统是否已经具备了对类似的问题的免疫能力。通过这一完整的业务连续性体系,阿里的生产系统真正地实现了在灾难发生时五分钟发现、十分钟恢复。

经过长期的技术积累,今天的GOC已经拥有了从故障管理平台(OPM)、应急响应平台(OER)、容灾演练平台(ODE)、变更管理平台(OCM)到运行分析平台(ODA)的完整的业务连续性系统,打造出了一整套业界领先的业务连续性建设解决方案。他们秉持着技术驱动的信念,以自动化和智能化为抓手,为了“无人值守的生产系统”的目标而锐意创新!

随着中国近年经济的高速发展,中国企业在亚洲乃至全世界的影响力也在迅速扩大。今年又恰逢一带一路峰会的召开,中国企业在迎来宝贵发展良机的同时,也将面临新的挑战。业务连续性管理作为企业发展保驾护航的重要手段势必得到更高的重视和更广泛的应用。今年 DRI 不失时机地选择再次在北京召开业务连续性管理亚洲盛会,旨在为中国各行各业的业务连续性管理专业人士提供一个借鉴国际成功经验、交流中国实践的机会,研究适合中国国情的有效的业务连续性管理方法,开拓业务连续性管理及灾难恢复应用市场的平台。

阅读原文http://click.aliyun.com/m/31982/

转载于:https://my.oschina.net/u/3637633/blog/1547807

你可能感兴趣的文章
PAT A1030 动态规划
查看>>
自制一个 elasticsearch-spring-boot-starter
查看>>
【人物志】美团前端通道主席洪磊:一位产品出身、爱焊电路板的工程师
查看>>
一份关于数据科学家应该具备的技能清单
查看>>
机器学习实战_一个完整的程序(一)
查看>>
Web框架的常用架构模式(JavaScript语言)
查看>>
如何用UPA优化性能?先读懂这份报告!
查看>>
这些Java面试题必须会-----鲁迅
查看>>
Linux 常用命令
查看>>
CSS盒模型
查看>>
ng2路由延时加载模块
查看>>
使用GitHub的十个最佳实践
查看>>
脱离“体验”和“安全”谈盈利的游戏运营 都是耍流氓
查看>>
慎用!BLEU评价NLP文本输出质量存在严重问题
查看>>
JAVA的优势就是劣势啊!
查看>>
ELK实战之logstash部署及基本语法
查看>>
帧中继环境下ospf的使用(点到点模式)
查看>>
BeanShell变量和方法的作用域
查看>>
LINUX下防恶意扫描软件PortSentry
查看>>
由数据库对sql的执行说JDBC的Statement和PreparedStatement
查看>>