Meta 最近推出了 Llama 4 系列LLM(Scout、Maverick 和 Behemoth 预览版),其中 Scout 具有 1000 万个令牌上下文窗口。 此后不久,在 X、LinkedIn 和其他论坛上,有关检索增强生成(RAG) 即将过时的评论日益增多,暗示如此广泛的上下文窗口可能会使 RAG 变得毫无用处。 然而,我们相信,考虑到上下文窗口的细微差别、不断变化的公司数据、分布式数据存储、监管问题、模型性能以及企业级 AI应用的相关性,RAG 将继续成为基础的生成 AI 设计模式。
尽管 Llama 4 已经支持了 1000 万个 token 上下文窗口,但 RAG 仍然是企业 AI应用中的关键组件。 企业通常使用存储在分布式系统中的动态、不断变化的数据集进行运营。 RAG 使模型能够实时从这些庞大的数据存储中获取和整合最新和最相关的信息,确保 AI 输出既准确又与上下文相关,所有这些都根据组织、团队或用户的不同而极其独特。 实时检索对于需要最新知识的应用(例如客户支持、市场分析和知识库)至关重要。
仅仅依靠大型上下文窗口而没有外部检索可能既低效又有安全隐患。 当数据不断输入模型时,就更难控制谁可以访问这些数据、这些数据是否被安全存储以及如何通过日志或模型输出无意中暴露这些数据。 随着数据量的增长,内部威胁、恶意提示或意外泄露的可能性会变得更大,如果机密记录处理不当,组织可能会面临违反隐私或合规要求的风险。
通过采用 RAG,企业可以仅检索每个查询最相关的数据,以符合通常需要高度相关的数据选择的区域和行业特定的监管限制。 这种方法减少了攻击面,同时确保了基于角色的访问控制、传输中加密和详细的审计机制等策略的一致执行。 这种选择性检索不仅可以减少计算开销,而且还通过将敏感资产的暴露限制在推理时所需的范围内来强制实施强大的安全态势。
在 LLM 中,上下文窗口表示模型在单个输入中可以处理的最大标记数。 扩大这个窗口可以让模型同时考虑更多更广泛的信息,从而实现更详细的对话、更全面的分析和更好的个性化。 从角度来看,由 100,000 个标记组成的原始文本大小约为 325 KB;1000 万个标记上下文相当于大约 32 MB 的文本数据。 这种能力使 Llama 4 Scout 能够在单个查询中处理大量信息。
虽然扩展上下文窗口具有一次处理更多数据的优势,但它带来了与模型性能、准确性和效率相关的挑战。 处理数百万个令牌需要大量的计算资源,从而导致延迟增加和运营成本上升。 随着上下文长度的增加,模型可能难以在整个输入中保持注意力和相关性,这可能会影响人工智能输出的质量。 关于这个话题,作家兼公认的人工智能专家 Andriy Burkov 博士在 X 上写道,“声明的 10M 上下文是虚拟的,因为没有模型针对长度超过 256k 个标记的提示进行训练。 这意味着如果你向其发送超过 256k 个代币,大多数时候你都会得到低质量的输出。”
虽然更大的上下文窗口带来了新的机遇,但平衡性能和资源利用率的需求也至关重要。最佳方案是呈现所有相关信息,但不呈现任何不需要的信息。 事实上,一些研究似乎表明,就像人类一样,向大语言模型 (LLM) 输入过多的信息会削弱其识别和聚焦的能力。 对于那些感兴趣的人,白皮书《迷失在中间》: 语言模型如何使用长上下文,深入探讨了这一主题。
许多企业发现,为 RAG 安全地连接数百或数千个广泛分布的数据存储,同时又不影响传输中数据的性能或安全性,是一项艰巨的任务。 整合本地、混合和基于多云的存储位置的挑战需要高性能的全球互连结构,例如F5 分布式云服务所提供的结构。 通过确保只有授权的 LLM 端点可以使用集成的 WAF 和基于策略的控制访问数据,企业可以大幅降低与管理多个网关或 VPN 相关的风险和开销。
通过提供统一的网络和安全方法, F5 分布式云网络连接简化了 RAG 实施,使组织能够无缝连接分布式数据源,以获得更准确、及时的 LLM 驱动输出。 此外,借助F5 AI Gateway ,组织可以防范可能违反数据安全边界的快速注入攻击,以确保在推理时采取纵深防御方法。
部署像 Llama 4 Scout 这样的模型,由于其具有广泛的上下文窗口,需要强大而高效的基础设施。 能够管理大量数据吞吐量的高性能代理对于保持低延迟和确保无缝操作至关重要。 部署在 NVIDIA BlueField-3 DPU 上的 F5 BIG-IP Next for Kubernetes在此背景下提供了引人注目的解决方案,为云级 AI 基础设施和AI 工厂提供量身定制的高性能流量管理和安全性。
通过将数据密集型任务卸载到DPU ,可以释放 CPU 资源用于核心application进程,从而提高整体系统效率。 通过多租户支持,多个 AI 工作负载可以在同一基础架构内安全高效地运行,这与 AI 云、超大规模器和服务提供商很好地保持一致。 对于旨在利用具有广泛上下文窗口的模型同时保持最佳性能和安全性的人工智能工厂来说,这种功能是必不可少的。
另一个重要的考虑因素是,大型且高度可变的上下文窗口会导致资源消耗的显著波动。 这更加强调智能地平衡传入请求以匹配可用的计算能力。 先进的自适应负载均衡解决方案有助于将这些大型查询分配到多个集群或区域,从而缓解瓶颈并保持复杂 AI 部署中的整体性能,即使它们不能直接降低计算成本。
RAG 在今天依然像以前一样重要,其原因不仅仅局限于上下文窗口的扩展。 一个关键的好处是它能够根据用户的访问权限定制数据检索。 另一个是它能够整合及时信息,而无需模型重新训练或微调。 当考虑到企业数据量巨大时,这一点变得尤为重要,企业可能希望将数据与人工智能模型集成,这些数据通常达到 TB 甚至 PB 的水平。
增加上下文窗口大小方面的令人印象深刻的创新,例如 Llama 4 Scout 的 1000 万个标记上下文窗口,是 LLM 的重大飞跃,但仍然需要谨慎使用上下文。 较大的上下文规模会增加成本和延迟,在某些情况下甚至会降低最终响应的质量。 同样重要的是,当组织扩展其 AI应用时,需要强大的基础设施和安全控制来确保高性能。
F5 对 AI 的关注不止于此——探索F5 如何随时随地保护和交付 AI 应用。