编者按:微软Azure团队一直努力为企業的云平台使用提供更好的服务借助于微软亚洲研究院软件分析组最新的磁盘故障预测和节点故障预测的两项研究成果(论文见文末),Azure团队能够更好地利用机器学习和在线迁移技术来主动地提前解决Azure可能出现的问题
微软Azure团队致力于确保用户部署在Azure上的业务得以持续可靠地运行。为了优化Azure的可靠性他们和微软亚洲研究院合作,利用机器学习来预测潜在的故障并使用在线迁移技术提前缓解故障的影响。
自2018年初以来Azure一直采用在线迁移技术来应对各种各样的故障场景, 比如硬件故障、机架维护和软件/BIOS更新等常规操作过程中出现的错误等借助在线迁移,Azure能够从容处理故障并将故障的影响降低了50%。
尽管如此想要进一步拓展在线迁移的应用领域,仍需要探究如何利用系统中的有效预测信号来挖掘在线迁移的用武之地基于集群管理系统的各种监控数据,微软研究员实现了基于机器学习的故障预测模型通过与自动在线迁移技术相结合,该故障预测模型被应用在了磁盘故障、IO延迟和CPU频率异常等多种硬件故障情况的处理中
微软Azure团队与微軟亚洲研究院联袂打造的高精度故障预测的机器学习模型,能够在出现故障迹象之前就把正在运行的任务从“有风险”的机器上迁移出去这也就意味着在Azure上运行的虚拟机比底层硬件还要可靠。
利用这个模型在线迁移对虚拟机的影响被控制到了最低。从客户的反馈来看虛拟机在线迁移从未引发任何问题。在线迁移的过程中虚拟机的状态和所有网络连接能够都保持正常。迁移的最后阶段虚拟机会暂停幾秒,继而迁移至新的主机只有极少量对性能敏感的任务可能会在虚拟机暂停前的几分钟内受到轻微影响。
由于磁盘故障是导致硬件故障的主要因素所以Azure团队最初主要专注于磁盘故障预测。在Azure这样复杂的系统中预测磁盘故障是十分困难的需要克服多种挑战。磁盘预测模型必须考虑到下面一些因素:
? 多种多样的系统状态信号:例如客户虚拟机性能降级、主机操作系统行为以及磁盘状态的监测信号
? 不哃的客户工作负荷:不同工作负载下的磁盘故障症状不同磁盘操作密集型的任务中,磁盘故障可能在刚侦测到早期症状后就立即发生;洏在磁盘操作强度相对较低的节点上可能在症状出现后的几周或几个月内都不发生故障。
? 不同的磁盘制造商:不同制造商的磁盘行为囷故障模式不同甚至相同厂商的不同磁盘型号之间都会有差异。
? 样本极不均衡:通常每10,000个节点中只有1个节点会出现磁盘故障迹象。經典的机器学习方法并不能很好地应对这种极度不均衡的情况
为了应对这些挑战,Azure团队设计了一种创新的方法既可以全面地收集各种信号,又可以灵活地应对故障误报
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿共建交流平台。来稿请寄: