Categories
202203

supercomputing

摘要:随着超级计算机系统规模的不断扩大以及系统结构的日益复杂,硬件可靠性和软件可用性都面临着严峻的威胁和挑战,系统高可用性已成为研制超大规模并行计算机系统必须解决的一项关键性技术。本文分析了超级计算机容错设计的思想、硬件可用性设计支持、系统级容错模型以及主要软件客错措施,并进行了简单的总结。

关键词:RU RAS局部降级局部恢复保留恢复

1 引言

目前,超级计算机系统的规模越来越大,结构甘益复杂,硬件可靠性和软件可用性都面临着严峻的威胁和挑战、系统高可用性是研制超大规模并行计算机系统必须解决的一项关键性技术,在国际超级计算机技术研究领域也是一个十分令人关注的前沿性课题。

在超级计算机的容错技术中,相关的措施有很多,但将各种措施形成完整体系的并不多本文拟结合1。作实践,从容错思想、模型、具体措施等方面进行分析,并给卅相应的总结。

2 容错思想

作为系统设计的重要组成部分,高可用系统的目的是在软硬件发生故障时,系统能够通过各种容错措施使得用户课题得以顺利运行完,且在总的运行时间上不受大的损失,从而提高整机的可用性、由于系统运行中软硬件的各种故障和异常不可避免,容错也就不可缺少。 容错思想是容错设计的基础,决定设计思路和方向。不同的系统也有不同的设计要求、不同的设计思想和理念。:在标准化集群系统中,容错往往只有一些系统级或应用级的保留恢复;而在高端超级计算机系统的设计中,很多硬件单元都需要定制,软件往往也需要重新设计,必然会降低成熟度与可靠性,这给容错设计带来了机遇和挑战。

2.1 系统级容错系统级容错

设计,是采用协同容错的设计思想,将容错纳入系统总体设计中,与系统的结构设计密不可分这种设计思想通常采用自顶向下设计,综合考虑和规划各种容错措施,统一分配各个模块的可用性指标,面向实际应用建立可用性评f占模型,指导容错设计,有利于设计出先进、可扩展的控制架构。,在全面评估的基础上,依托可用性控制模型,进而指导具体的软件架构和容错方法设计,是一种高屋建瓴的容错设计思想,可有效指导系统的结构设计。

2. 2 模块与结构化设计

在大系统中,良好的容错系统应该是模块化与结构化的。模块化设计可以使得软件各个子模块的功能相对单一,从而降低软件设计的复杂度,并提高稳定性。采用模块化、结构化的设计思想,设计统一的系统架构,并将系统功能逐个分解,形成一个个小的软件单元,在每一个模块引入可用性设计,通过将各个子模块以各种方式组合在一起,构成完整的系统,从而将容错深入各个模块,与正常的管理、运行控制融为一体、无缝整合,避免单独的容错系统与『F常的非容错环境之问容易产生的相互隔离,衔接不畅的问题。

One reply on “supercomputing”

Comments are closed.