仿真计算,刀片集群
制造企业在设计过程中,随着设计精度的要求越来越高,系统结构越来越复杂,需要评估的角度也越来越多,不仅需要使用更多的数值仿真软件,而且也需要通过多核、多处理器和并行计算等高性能计算技术提高虚拟仿真的分析效率、减少计算时间。同时,也需要屏蔽系统复杂性,让设计人员能简单方便使用,最大化地发挥业界的主流软硬件的能力,提高设计人员的工作效率。
作为一家独立的软件供应商,东方超算高性能计算平台解决方案立足点如下:
1.集中管理:支持多种异构硬件平台、操作系统和应用程序,提供单一系统镜像,可以实现计算节点和图形工作站节点的集中管理和统一调度;
2.负载均衡:提供强有力的负载均衡能力,保证计算服务器的任务分配尽可能均匀,避免出现机器忙闲不均的现象。并且可以根据服务器的负载指标(如:CPU利用率、可用内存数、IO等),采取保护性措施,避免因为任务过多导致系统忙而无效甚至死机。无需用户干预自动分配计算资源
3.资源的有效利用:避免计算任务之间出现冲突而导致任务失败或计算时间延长;计算任务通过资源可用情况(许可证和CPU利用率)排队,保证许可证资源7x24使用;
4.资源的合理分配:包括许可证和硬件资源,如果没有合理分配机制,开放式高性能计算服务平台建成后将不可避免出现各部门间和人员对资源使用的无序竞争,资源使用效率和合理性将无法保证;
5.优先级管理:保证当资源不足(包括许可证和服务器)时,紧急的项目或任务可以获得更高的优先级,从而更快速地启动,避免影响设计和工程的进度;
6.避免无效占用:设置应用使用限制和生命周期,防止应用无效占用资源;
7.资源的安全使用:通过和系统的充分整合,防止用户绕开作业调度私自使用计算资源;
8.并行能力:采用公认的计算方法,支持多种MPI和网络协议,支持大型软件的分布并行计算能力;
9.投资回报分析:尽管对购买许可证和服务器的投入巨大,但很难获得定量的投入产出数据。许可证和服务器的年度规划和采购很大程度上是基于经验判断而非建立在科学的统计分析数据之上,往往出现投资失误和投资浪费。可提供以下信息实现投资回报分析;
--月度、季度、年度服务器CPU,内存等利用率情况;
--月度、季度、年度许可证的总体利用率,并列出各模块单独的情况;
--月度、季度、年度许可证的紧缺度,那些许可证长期不足,经常导致用户请求失败率高;
--资源的使用瓶颈分析,需求预测;
--用户/项目组/部门资源使用量统计;
10.跨平台性、稳定性要求:系统跨平台性强,支持各种Linux/Windows平台,能够最佳地跨越各种平台管理并行作业处理。 系统提供的功能全,稳定性高,使用方便,容错能力强;
11.用户友好:简化用户的使用,并尽量尊重用户的使用习惯。同时,系统也对系统管理员提供便利工具,方便系统管理;
12.先进性:充分考虑其先进性,使整个系统不仅满足用户目前业务的需要,还能适应未来技术发展的趋势和需要;
13.扩展性:不仅能提供单节点较高的运算能力及整体效率,还考虑到将来可根据业务需求和技术发展特点方便地增加节点;
14.开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。
客户核心需求与痛点
1. 第三方调度软件和景行资源管理与调度软件复杂异构环境下的多集群无缝互联整合
2. 自动实现集群间的负载均衡,保证每个集群都能被充分利用,避免作业向某个集群集中导致闲忙不均
3. 屏蔽后台的复杂性,提供一种方式让用户可以简单方便地使用多个集群的计算资源
4. 保证资源跨集群共享的安全性
解决方案
1. 多个异构集群实现互联和共享,每个集群相对独立,任何一个集群出现故障不影响整体用户使用
2. 同一门户访问,屏蔽后端系统差异性
3. 基于单位、研究室、项目(型号)、用户进行计费,方便资源跨集群使用的核算
4. 完善安全设计,提供多层次的审计和加密措施,保证跨集群数据和任务的安全性