生成式人工智能正在加速人工智能对基础设施的影响。 我们已经进入了基础设施复兴时期,技术专家重新对数据中心的底层网络、计算和存储层产生了兴趣和赞赏。 主要受摩尔定律“消亡”和边缘计算的出现推动,我们多年前就已经看到了专用处理单元(xPU)的兴起。
如今,生成式人工智能(更确切地说是视频游戏)已使 GPU 成为家喻户晓的术语,而 GPU 优化也成为一种新的需求。
这是因为 GPU 需求量大而供应量低。 很多组织已经投入(或者计划投入)其整体 IT 预算的很大一部分来购买这款功能强大的硬件。 其中一些投资用于他们自己的基础设施,一部分用于支持公共云基础设施。
但这一切都是为了支持运行AI应用的 GPU 资源的可用性。
但环顾四周,我们发现将一种新型资源引入基础设施会带来挑战。 多年来,各组织一直将基础设施视为商品。 也就是说,都是一样的。
基本上也确实如此。 组织采用白盒或名牌服务器作为标准化,所有服务器都具有相同的内存和计算能力。 这使得基础设施操作更容易,因为在流量管理中不需要担心工作负载是在服务器 8756 还是服务器 4389 上运行。 他们具有相同的能力。
但现在呢? 噢,GPU 改变了这一切。 现在基础设施运营需要知道 GPU 资源在哪里以及如何使用它们。 但有迹象表明情况可能不容乐观。
根据《2024 年大规模人工智能基础设施状况》, “15% 的企业报告称,其可用和已购买的 GPU 的使用率不到 50%。”
现在,这 15% 的组织可能根本没有足够的负载来使用超过 50% 的 GPU 资源。 也有可能他们确实这么做了,但实际上却没有。
当然,一些组织会发现自己属于后一类;他们绞尽脑汁想为什么在有大量备用 GPU 容量可用的情况下,他们的 AI 应用程序的性能却不如用户预期。
其中部分涉及基础设施并确保工作负载与所需资源正确匹配。 毕竟,AI应用中的并非每个工作负载都需要GPU容量。 从中受益的工作负载是推理服务器,而不是其他任何服务器。 因此,这意味着在基础设施层进行一些战略架构工作,确保需要大量 GPU 的工作负载在支持 GPU 的系统上运行,而其他应用程序工作负载在常规旧系统上运行。
这意味着配置策略需要了解哪些节点支持 GPU,哪些节点不支持。 这是 GPU 优化的重要部分。 这也意味着向这些资源分发请求的应用服务也需要更加智能。 负载均衡, 入口控制, 和 网关 当谈到基础设施利用率时,分配请求是效率方程的一部分。 如果每个请求都发给一两个支持 GPU 的系统,那么不仅它们的性能会很差,而且还会让组织花费大量金钱购买的“空闲”GPU 容量。
这也可能意味着利用公共云中的 GPU 资源。 这样做意味着利用网络服务来确保共享数据的安全。
换句话说,人工智能应用将在分布式以及实时配置和管理方式方面对基础设施产生重大影响。 对遥测的需求将会不断增加,以确保操作能够及时了解哪些资源可用以及在哪里可用,并且需要一些良好的自动化来确保配置符合工作负载要求。
这就是为什么组织需要对整个企业架构进行现代化改造。 因为它不再仅仅涉及层或等级,而是关于这些层和等级如何相互连接和支持,以促进能够利用人工智能力量的数字化成熟业务的需求。