博客 | 首席技术官办公室

新一代人工智能应用程序: 从实验转向生产

James Hendergart 缩略图
詹姆斯·亨德加特
2024 年 7 月 18 日发布

承诺,承诺。 生成式人工智能应用有望提高人类的生产力,从而提高企业利润。 对于许多用例来说,从实验到生产的道路仍然是疯狂而危险的,就像 1981 年 Konami 的电子游戏《Frogger》一样。 青蛙必须回家,首先要穿过一条繁忙的街道,然后要穿过一条湍急的河流。 青蛙不能静坐,但它也不能总是向前跳,因为这样会存在危险。

公司就是青蛙。 街道、河流,都是令人眼花缭乱的人工智能技术的洪流。 安全空间(开放街道和漂浮原木)是自主项目和供应商提供的。 汽车、卡车、海龟和开放水域是生成式人工智能在道德、法律、隐私和准确性方面的危险。而家庭则是相反的一面,在将生成式人工智能应用投入生产后,业务收益飞速增长。

生成式人工智能的快速发展在公司内部引发了强烈的紧迫感。 然而,模型进步的速度可能会使一些组织陷入瘫痪,因为它们脚下的根基正在快速崩塌,它们无法在持续快速的变化中定位自己。 采用生成式人工智能的秘诀就像开始玩“青蛙过河”游戏一样——跳进去!

从基本的生成式人工智能用例开始,一旦公司决定哪些用例看起来可取,他们就可以开始进行实验。 无论是构建支持人工智能的应用还是尝试第三方产品,或两者兼而有之,初步试验都会明确业务需求。 早期阶段取得成功的关键是致力于开发满足安全性和有效性生产要求的应用的最低版本。 这成为该组织的基础。 从此他们可以继续前进,决定哪些模型进步很重要,以及自主研发还是购买更为明智。

有两个“陷阱”不可避免地会减慢组织尝试采用生成式人工智能的速度:内部训练模型和私人数据存储库。 基础模型进步的速度现在以周和月来衡量,下游版本每天更新。 如果您需要证据,只需看一下 HuggingFace模型追踪器。 我在撰写本文时刚刚拉出的页面几乎占满了一整页,其中都是不到 1 分钟前更新的模型。 必须滚动浏览才能找到超过 2 分钟的模型!

如果回答 AI 问题所需的数据是公开的,那么很可能已经有大量可通过 API 获得的基础模型可供使用。 另一方面,如果数据不是公开的,那么需要决定是否在推理期间发送该数据,或者私下构建或获取和部署模型。 付费访问模型肯定比在内部构建或授权、托管和维护自己的模型更快,而且很可能更便宜。 您的企业超能力是什么? 如果它不是构建或维护大型语言模型(LLM),那么您应该购买,而不是构建和托管。

对于私人数据,LLM 使用的上下文窗口和自定义选项已经非常成熟,类似于云计算已经接受的企业级安全性和合规性,可以满足大多数公司的需要。 事实上,2023 年模型提供商并没有明确表示对您的数据进行任何训练。 以ChatGPT Enterprise为例,它具有 SOC 2 Type 2 合规性、SAML SSO、静态和传输中数据加密以及支持数据保留和域验证的专用工作区——还不错吧? 那么,对于 92% 的《财富》500 强企业来说,这似乎已经足够好了。

相信生成式人工智能前景的组织不必因固有的危险或每天的 LLM 改进而陷入麻痹。 只要他们睁大眼睛,勇敢前行,就一定能获得成功。 初始实验周期带来了信心和优先确定在安全和道德使用的情况下哪些任务受益最大的能力。 这些应该以生产模式在整个组织内推广,让评估者和实施者喘口气,让组织有时间衡量生产率的提高,确定下一组任务的优先级,并确定构建还是购买 LLM 访问权限更有意义。