有人说,IT 预算决定着战略的生死。 如果事实确实如此,那么人工智能策略就依然活跃且有效。
我们最近的研究表明,各组织平均将 18% 的 IT 预算专门用于 AI。但如何分配这 18% 的预算让我们可以一窥他们的 AI 战略。
目前约有 18% 的人工智能预算用于人工智能服务;集成或提供某种人工智能工具的第三方applications。 其余部分用于模型(19%)、开发(16%)、安全(9%)、数据技术(11%)和 GPU(9%)。
结合训练(50%)和推理(50%)之间的支出均等分配,以及人工智能将分布在公共云(80%)和本地(54%)的发现,我们可以推测,各组织正在计划对其基础设施进行重大变革,以支持完整的人工智能生命周期。
部分支持需要重新审视网络。
构建支持训练和推理的基础设施需要仔细关注现代application环境,例如 Kubernetes,以及流量如何跨 AI 实例以及模型和使用它们的applications之间流动。
虽然 NVIDIA 并不是唯一的加速技术(GPU、DPU、IPU 等)提供商,但在参考架构方面他们处于领先地位。 正是在这些细节中,我们发现了对网络和可扩展性架构的重大影响。
目前业界对于 Kubernetes 特定术语的使用存在相当大的焦虑。 尽管运营商已经开始了解 pod 和集群的定义,但领先的 GPU 提供商在大规模部署推理时却混淆了这些定义。
例如,NVIDIA 提到了 AI pod,即 Kubernetes 集群。 他们将一组相关的集群称为 AI 工厂。
我在这里并不是为了争论术语——我很少能赢得这些争论——所以我专注于这些人工智能能力单元以及它们对网络的意义。
扩展生成式人工智能的现实问题之一就是对计算周期的需求。 具体来说,就是 GPU 计算周期。 为了满足这一需求,特别是对于人工智能服务提供商来说,有必要构建复杂的人工智能计算单元。 这些单元就是 NVIDIA 所称的 AI pod,但其他人无疑会有自己的特殊名称。 它们本质上是 Kubernetes 集群。
这意味着 AI 计算单元内部存在大量的 EW 流量,但也意味着大量 NS 流量进入这些 AI 计算单元。 这就是我们发现自己正在关注传统数据中心基础设施和新兴人工智能计算综合体之间的边界发生重大变化的地方。
在这个边界上发生了很多事情,特别是对于需要每个租户网络隔离的服务提供商而言。 对 L4-7 流量管理的需求也很大,包括速率限制,以免 AI 资源过载。 还有预期的规模和分布负载平衡,以及高级 CGNAT 功能等网络服务。
企业也需要这些,他们希望扩展他们的人工智能实施,以支持不断扩大的业务用例,从生产力到代码和内容生成到工作流自动化,当然还有对使用人工智能进行运营日益增长的兴趣。 虽然每个租户隔离可能不是企业的要求,但它有助于确保高优先级的 AI 工作负载(如自动化和运营分析)不会被低优先级的 AI 工作负载所阻碍。
无论是服务提供商还是企业,数据中心都将经历网络的重大变革。 将 AI 工作负载插入传统数据中心架构可能会导致无法扩展甚至无法可靠运行。
了解数据中心架构的变化非常重要,拥有像BIG-IP Next SPK这样的工具和技术来提供成功现代化数据中心网络所需的功能以支持每个 AI 工作负载和最终依赖它们的业务也很重要。