400-099-0376

在线试用
微信扫码联系专属客服
安企神软件官网
首页
下载中心
客户列表
关于安企神

混合云中的HPC战略如何制定????

2022-07-08

                                            

尽管云已经普遍存在,且HPC在云中已经十多年——2008年Univa在AWS上委托了第一个HPC集群——但企业一直不愿将HPC工作负载放在云计算中。对于数据安全性和缺乏相应技术的担忧,已经超过了降低管理成本和避免硬件所有权的好处。

只有在过去的一年里,我们才真正达到了一个临界点。一项客户调查显示,2022年企业对HPC云的兴趣和使用量增加了10倍。随着与云计算相关挑战的减少,这些企业都看到了采用混合云策略的经济和商业性机会。在公有云中,他们可以在不影响CAPEX的情况下使用像Nvidia GPU这样的专用硬件,也可以扩展计算量繁重的工作负载,如通常会影响其他集群的TensorFlow机器学习模型。而且在混合模式下,他们还可以在不牺牲现有投资的情况下实现这些目标。

混合云战略

在HPC领域,大多数公司都开始利用云来扩大现有资源。这样做可以最大化当前的投资,并提供一种方法来简化新的云基础架构模型。然而,这也有可能加剧现有复杂性。如果企业不能很好地了解他们现有的基础设施是如何使用的,那么就不可能知道云服务的增加是否会给他们带来真正需要的结果。因此,在引入新的云资源之前,他们应该尽可能地合并筒仓式的封闭工作负载,并确保有合适的工具,可以让自己看到使用模式和优化资源。

如此一来,企业就可以将公有云资源引入他们现有的工作流程中。大多数公司开始这种过渡时只迁入一些少量工作负载,然后再有序进行增加。在开始时采用以下策略,并在增加公有云投资时对其进行微调,或许会帮助你实现无缝过渡:

  • 策略自动化对于混合云环境和HPC来说是至关重要的。有HPC工作负载的公司很可能已经意识到了有正确的策略管理工具的好处,而且应该考虑制定一些能够帮助他们最大化使用混合云资源的策略。他们可以通过制定策略来提高吞吐量,这些策略可以自动地确定哪些工作负载在本地运行,而不是在云中,也可以根据工作负载指标和历史记录来可靠地进行监视、响应和做出决策。例如,可以将一个策略设置为,向某个等待资源过久的任务分配一个云实例,或者自动终止未使用的云实例。

  • 云爆发(一个应用部署模式,其应用运行在私有云或数据中心中,当计算能力的需求达到顶峰时突然进入公有云中。)可以用来调整公司的产能以适应需求,极大地加快计算速度,并从对其他集群的影响中不断要求HPC工作负载。组织应该注意将云爆发功能绑定到工作负载管理层,而不是应用程序或基础架构层。这让HPC云管理软件根据公司更广泛的基础设施的需求来决定何时提供服务器实例、阶段数据和拆除资源。当能够有效地使用时,云爆发将使硬件预算决策具有灵活性,同时帮助组织以更快的速度前进。

  • 最终用户应该能够使用他们已经知道且信任的方法与云基础设施进行交互。如果一个组织在采用云计算时突然改变了他们的流水线和提交方法,他们不可避免地会出现错误和延迟。相反,他们应该保留现有的工作流和与之相关的调度器,无论它们是简单的步骤,如“qsub”提交单个任务——还是像环境设置一样复杂的流程,观察工作状态、数据移动,或者是一个从任务到任务的序列。

  • 最后,要带上你自己的映像。使用相同的机器映像有助于使应用程序在本地和基于云的节点之间移植。公司应该使用他们自己的云供应软件定制映像,而不是用每个供应商特有的VM映像。


拥抱混合云

混合云是公有云服务提供商和HPC用户的胜利,而我们还只是处于这个巨大改变的开始。HPC往往有数百万台服务器,每年有数十亿的计算时间。随着公司将这些工作负载转移到云上,它们将影响公有云服务的质量和IaaS市场的现状。公有云提供商提供的安全性、GPU和机器学习服务将继续改进,吸引越来越多的企业用户,并巩固混合云中的HPC架构。


  • TAG: