阿里云凌晨宕机,一大波互联网公司炸了

作者:安数网络 发布时间:2019-03-05 16:02:02 浏览次数:1357
上个周末对很多程序员来说一定是个不眠之夜

有没有发现他们的黑眼圈又深了一些?

3月3日凌晨,不少网友在微博上反映阿里云出现大规模宕机故障,波及华北一大批互联网公司,APP和网站都瘫痪了,程序员们深夜被迫爬起来干活;一时之间程序员圈子里哀鸿遍野。

对此,阿里云官网凌晨2点37分发布公告称,经紧急排查处理后逐步恢复服务。针对本次故障,阿里云将根据SLA协议,尽快处理赔偿事宜。

阿里云官方对IOHANG问题的原因语焉不详,该回应被搜狐网、金融界、新京报等四百多家网媒转载,也没有媒体对IOHANG一词给出专业解释,那么打败了阿里云的高深莫测的IO HANG到底是什么?
 
什么是IO HANG

所谓IO HANG,就是云服务器的磁盘无响应,hang 就是停止响应,IOhang,就是指 I/O(输入/输,Input/Output)停止响应,或者说 IO 响应变慢了,这意味着输入输出卡住了,无法使用存储功能,这也就是很多公司反映 APP 卡顿的原因。

IO hang 一般非常的少见。类似的hang故障 还有,系统 hang (系统停止响应了),数据库 hang 等,一般都是指的磁盘故障。
 
什么是SLA协议

那么,阿里云提到的根据SLA协议进行赔偿,又是指什么?SLA(Service-LevelAgreement)即为服务水平协议或服务等级协议,是国际通行电信服务评估标准,是一种由服务供应商与用户签署的法律文件,承诺只要用户向服务供应商支付相应费用,就应享受到服务供应商提供的相应服务。

SLA在国外已经广泛应用,在国内,首先推行的是电信行业,围绕网络维护的关键指标,如电路可用性、网络性能、服务响应时间、业务提供保证等,进行服务质量、收费标准及赔付标准的承诺。 SLA以协议的形式详细描述所提供的服务及未达到服务承诺时的赔付等。

在阿里云官网可以查阅到云服务器 ECS服务等级协议(SLA),受牵连的互联网公司可以对照协议,琢磨下如何向阿里云索赔了。

阿里云此次宕机引起轩然大波,也与其庞大的用户基数有关。根据市场调研机构IDC发布的市场份额报告显示,2018年阿里云市场份额占比45.5%,排名第一;腾讯云市场份额10.3%,排名第二;中国电信第三,份额7.6%。

 
服务器宕机事故频发

据了解,这不是阿里云第一次出现宕机事故。

2018 年 6 月 27 日 16:21,阿里云也曾出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大约花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。

放眼到全球,宕机事件不胜枚举。仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故,宕机原因更是五花八门:亚马逊AWS称因数据中心硬件问题导致宕机,微软Azure数据中心则因高温和打雷陷入宕机,腾讯云因运营和硬盘故障导致宕机,谷歌则因自动化失效陷入宕机。

如何避免宕机事故造成重大损失?有业内人士称,需要将重要业务分别放在不同的篮子里,也就是选择多个供应商,进行多云部署。不过,也有专家认为,多云部署,会带来管理、开发、人员培训的复杂性,也可以选择多区域部署的方式。
 
智慧城市的安全风险

随着网络普及,我们的生活越来越便利,与此同时,捆绑在网络上的生活,也变得越来越脆弱。

网络袭击已成为最新型的大规模攻击性武器。甚至不用什么黑科技,只用最基础的DDoS攻击,就能制造一场灾难。

2016年10月21日,网络主机公司Dyn遭遇大规模DDoS攻击,使得很多使用Dyn服务的大型网站,全部瘫痪。其中,包括GitHub 、Twitter、Airbnb、Spotify、SoundCloud、Reddit等等,Dyn花了一整天才重新启动服务器,这里面损失多少钱,恐怕难以估量。

当前,我国全速推进智慧城市建设,物联网与城市政务、环境、交通以及生活的各类基础设施交融互联,全面感知城市动态。如果别有用心的黑客组织找到安全漏洞,完全可以通过网络,切断水电、通信、交通,能源,从而把整个城市攻陷,这是比任何形式的战争成本都要低,效果却极具毁灭性的“数字灾难”。


是等到灾害来临时束手无策?

还是提前掌握主动权,及时把控网络安全态势,监管网络安全风险?

答案显而易见。

及时掌握网络安全态势 尽在傻蛋网络安全监测系统

【网络安全监管部门】免费试用

本文来源:网络

如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。
电话:400-869-9193 负责人:张明