博客

推理: 你故意忽视却最关键的人工智能部分

Lori MacVittie 缩略图
洛里·麦克维蒂
发布日期:2025年9月29日

大家总喜欢把人工智能的话题聚焦在API上,仿佛它的起点和终点都在那里。 有模型支撑。 有闪亮的仪表盘告诉你,“推理已完成”。 但只有你不去深入探究,才会被这种表象所蒙蔽。

每个聊天机器人、代理、RAG 流水线和编排层背后,都运行着一台推理服务器。 这不是比喻。 这不是一个时髦词汇。 这是一台运行模型而非 JAR 文件的真实应用服务器。 就像传统应用服务器一样,推理引擎决定性能瓶颈、影响可观察性,也是你安全防护的核心所在。

问题出在哪? 几乎没人这么对待它们。

企业中的推理是切实可行的

根据Uptime Institute 2025 年人工智能基础设施调查,32%的数据中心运营商已经支持推理工作负载。 另有45%表示,他们将在接下来几个月内跟进。 这不是试验阶段。 而是计算基础层的变革。 而这场变革,我们大多数人还未能全面察觉。

推理服务器并不是理论上的。 他们有名字。vLLM。 TGI。Triton。 奥拉玛。 而且它们不能互换。例如,vLLM 的性能已被证明比Hugging Face Transformers 高出 24 倍,并且得益于 PagedAttention 和批量调度等架构改进,其持续吞吐量比 TGI 高出 3 倍以上。 这些不是优化怪癖。 它们是基础设施的后果。

我们说的是实际数字:vLLM 在批处理模式下每秒稳定处理超过 500 个令牌,而 TGI 不到 150 个。 提示评估时间缩短了 40% 以上,直接带来更快响应和更高 GPU 利用率。 在生产环境中,这关系到推理能否顺利扩展,避免因负载过重而停滞。

这不仅仅是性能。 vLLM和Ollama等工具提供了详细应用遥测:总耗时、令牌级评估窗口以及提示与响应的拆分。 不仅统计令牌数量,还记录每个令牌的计算时间、位置和时长。 如此细致的数据帮助您定位和解决模型漂移问题。 这也是您实施安全边界的关键手段。 没有这些数据,您的扩展就是盲目的。

就像它们的应用服务器前身一样,推理是应用交付与安全融合人工智能的关键环节。这里发生流量引导和负载均衡;我们检查、分析并处理有效负载,以确保安全和隐私。 我们对提示进行净化,过滤响应,并提升性能。 这里是人工智能架构中的战略控制节点,您可以在此应对始终困扰传统、现代与AI应用和API的十大交付挑战。 

推理为何被落下

推理常被忽视,因为我们还停留在API领域。 如果你认为推理只是入口后面的普通服务,那你还没在高负载下调试过RAG循环。 也没追踪过多个并发代理链的错漏。 或应对受监管的大型语言模型中必须记录审计决策的提示注入问题。

这不仅仅是一个理论问题。 网络瓶颈正等待着发生。

推理服务器是您的模型所在的容器。 它们是运行环境。 它是瓶颈所在。 它是安全边界。 这里是真正实现人工智能扩展的地方。模型本质上是数学。 它是一个数据集,就像一个复杂的 Excel 表格。 您不直接扩展它,而是将它加载到推理服务器里,然后扩展服务器本身。 

如果您真正想将人工智能落地,就不要再谈抽象的架构图了,而应开始提出更具挑战性的问题:

  • 我们使用了哪些推理引擎?
  • 它们部署在哪儿?
  • 谁可以访问?
  • 我们为每个请求收集哪些应用遥测?

这些不是学术上的问题。 它们是网络基础设施的现实。 你越拖延,人工智能部署就越脆弱。 模型至关重要。 API 提供支持。 但推理才是真实的考验。 如果你不扩展推理能力,就不可能扩大人工智能应用。

推理是AI基础设施的重要环节

大多数组织在人工智能使用上仍处于混合状态,他们一方面依赖基于 SaaS 的工具以求便利,同时也在谨慎尝试自托管推理。 问题在于,SaaS 屏蔽了其中的痛点。 推理被包裹在流畅的 API 和精致的用户界面后面。 你看不到引擎失效、GPU 资源枯竭或提示响应时序漂移。 但一旦你进入自托管环境(这是必然的),你就必须面对这些问题。 性能、可观察性和安全性不仅仅是“锦上添花”。 它们是基础条件。 

如果您的组织不真正了解推理的底层原理,您就无法制定有效的人工智能战略。 您只能寄希望于别人已经做对了。