检索增强生成 (RAG)

RAG 代表检索增强生成。 这个首字母缩略词强调了其核心原则:通过检索实时或频繁更新的数据来增强基础人工智能系统或人工智能模型,以提供更具情境性的答案。

什么是检索增强生成 (RAG)?

检索增强生成 (RAG) 已成为生成 AI 中的一种有效技术,它将外部可用数据(通常是专有数据或特定领域数据)集成到使用大型语言模型 (LLM) 的工作流程中。 RAG 检索相关上下文,并在发出请求之前将其添加为额外的提示上下文,从而提高 AI 响应的效率和准确性,超越了仅利用其训练数据集的独立模型所能达到的水平。

RAG 的用途是什么?

RAG 用于解决人工智能中的一个基本挑战:即使底层 LLM 已经使用过时的信息进行训练,如何使静态模型与最新、最相关的数据保持同步。 常见的 RAG应用包括:

  • 客户支持: 人工智能聊天机器人检索最新的产品手册、系统状态信息和客户历史记录,以提供更快、更有针对性的解决方案。
  • 实时分析: 企业利用金融市场信息、社交媒体趋势或物联网 (IoT) 设备流来提高决策的准确性。
  • 知识管理: 内部维基百科、研究档案和其他内容存储库提供了 AI 模型无法在其训练中单独存储的重要参考。

RAG 在生成式 AI 用例中的工作原理

大多数生成式人工智能模型在固定的训练周期内学习信息。 当训练结束时,模型仅保留到某个时间点或某些数据约束内的知识。 RAG 通过在推理时(即用户查询到达的那一刻)从外部来源提取新鲜的相关数据来扩展这些知识。

  1. 检索: 该系统从包含更新信息的存储库中识别最相关的文档、数据库条目或向量嵌入。
  2. 增强: 该模型使用检索到的内容作为额外的“提示”或上下文,将其与底层训练数据无缝集成。
  3. 一代: 最终的响应被产生,并通过最新或特定领域的数据进行丰富,而静态模型本身无法复制。

RAG 语料库管理

为了使 RAG 可靠地运行,组织通常会维护一个更新的语料库(包含结构化和非结构化数据),可通过矢量数据库或知识图轻松访问。 正确管理该语料库涉及数据提取、清理、嵌入和索引,确保检索引擎可以快速隔离上下文适当的信息。

RAG 为何重要

  • 语境准确性: 通过将响应与实时或组织特定数据相结合,RAG 大大减少了“幻觉”,即 AI 模型产生与实际情况无关的答案。
  • 最新信息: RAG 允许模型按需查询新内容,从而提高响应内容的质量和时效性,而无需在每次数据发生变化时进行昂贵的重新训练或微调大型模型。
  • 法规遵从性: RAG 支持选择性检索符合用户访问权限的数据,从而有助于维护隐私和数据保护法规的合规性。
  • 成本效益: 存储和计算资源仍然更易于管理,因为每次查询仅检索最相关的数据。
  • 更好的数据保障: 由于敏感数据可以从核心 LLM 中单独检索,因此它永远不会被融入模型中,从而减少了越狱或模型被盗时数据泄露的风险。

RAG 的未来

人工智能的进步(例如扩展上下文窗口)似乎可以通过让模型原生考虑大量文本来降低 RAG 对消费者的重要性。 然而,对于拥有分布在多云环境中的海量数据的企业级组织来说,仍然面临着快速变化且广泛分布的数据源。 RAG 通过选择性地利用最相关的授权信息来应对这一挑战,而不会使模型的上下文窗口超载或冒数据蔓延的风险。 随着人工智能越来越深入地融入企业工作流程,RAG 将继续成为提供及时、内容丰富且高精度输出的关键战略。

F5 如何应对企业 AI 部署

F5 通过将跨多云环境的分布式、分散的数据源无缝连接到 AI 模型,在实现检索增强生成 (RAG) 的安全连接方面发挥着关键作用。 随着企业采用先进的 AI 架构,F5 使用F5 分布式云服务确保对公司数据的高性能、安全访问。 分布式云服务提供统一的网络和安全方法,支持基于策略的控制、集成的 Web应用防火墙 (WAF) 和传输中加密。 通过从不同的存储位置实现安全、实时和选择性的数据检索,F5 帮助企业克服可扩展性、延迟和合规性方面的挑战,确保 AI 模型高效运行,同时保护敏感的公司信息。

在此处详细了解 F5 如何支持企业 AI 部署