GitHub公布21日系统软件常见故障剖析汇报

GitHub公布21日系统软件常见故障剖析汇报 不久GitHub根据官方blog公布了21日“挂掉”的恶性事件剖析。GitHub指出此次恶性事件产生的缘故是在10月21日22:52 UTC开展平常维护保养——拆换产生常见故障的100G电子光学机器设备时致使美国东海岸互联网管理中心与美国东海岸数据信息管理中心之间的联接断掉。

不久GitHub根据官方blog公布了21日 挂掉 的恶性事件剖析。GitHub指出此次恶性事件产生的缘故是在10月21日22:52 UTC开展平常维护保养 拆换产生常见故障的100G电子光学机器设备时致使美国东海岸互联网管理中心与美国东海岸之间的联接断掉。

更实际地,GitHub剖析,尽管两地的联接在43秒内修复,但这次短暂性的终断引起了1系列恶性事件,这才致使了长达24小时11分钟的服务退级。

以便大经营规模提升特性,GitHub的运用程序流程将立即写入每一个集群的有关主数据信息库,但在绝大部分状况下将载入恳求委派给副本服务器的非空子集。GitHub应用Orchestrator来管理方法MySQL群集拓扑并解决全自动常见故障迁移,Orchestrator在此全过程中考虑到了很多自变量,并在Raft共鸣体制之上达到共鸣。Orchestrator能够完成运用程序流程没法适用的拓扑,因而务必留意将Orchestrator的配备与运用程序流程级別的期待维持1致。

但是21日,在上述互联网分区中,Orchestrator在主数据信息管理中心中1直维持活跃,依据Raft的共鸣体制,它刚开始了1个撤销领导大选的全过程。美国西海岸数据信息管理中心和美国东海岸Orchestrator连接点可以创建合规数量并刚开始对集群开展常见故障迁移,便于将写入指向美国西海岸数据信息管理中心。Orchestrator再次机构美国西海岸数据信息库群集拓扑,当联接修复时,运用层马上刚开始将写入总流量正确引导到西海岸站点的新入选者。

美国东海岸数据信息管理中心的数据信息库服务器包括1段短暂性的写入時间,但并未拷贝到美国西海岸的设备。因为两个数据信息管理中心中的数据信息库群集都包括了其它数据信息管理中心中不存在的写入,因而没法安全性地将关键数据信息库常见故障迁移到美国东海岸数据信息管理中心。

GitHub工程项目师发现难题落后行了1系列抢救对策, 最后沒有客户数据信息遗失,可是,几秒钟的数据信息库写入的手动式融洽仍在开展中。

GitHub对全部受危害的客户表明歉意,并表明 大家早已汲取了经验教训,而且采用了1系列急救对策,大家期待更好地保证已不产生相近状况。

另外GitHub也表明接下来将处理由此致使的数据信息不1致难题。

有关阅读文章


2019-07⑶0 13:12:04 主机房基本建设 数据信息管理中心设备学习培训怎样提升经营 设备学习培训和人力智能化是现今IT技术专业人员的热门话题,而在公司的数据信息管理中心,它们有着真实的市场前景。

相关阅读