博客

生成式人工智能安全和未经授权的内容抓取保护

Jim Downey 缩略图
吉姆·唐尼
2024 年 4 月 24 日发布

想象一下成为一名靠出售信息为生的专家;人们付钱向你提问。 突然之间,机器吸走了你头脑中的专业知识,学会了比你更快地回答问题,并夺走了你的生计。 随着生成式人工智能的兴起,依赖内容的商业模式的企业面临的正是这种困境。

我们可能不知道人工智能将把我们带向何方,但显然它将改变我们消费内容的方式,并在此过程中颠覆那些依赖内容分发的企业——类似于互联网改变了我们对新闻和娱乐的消费方式,摧毁了许多传统新闻媒体。

新一代人工智能的颠覆将影响销售内容(如媒体、新闻和库存照片)的企业,以及依靠内容吸引观众观看付费广告的企业。 这种颠覆也将影响那些吸引潜在客户来推广产品和服务、建立品牌形象和客户关系、或号召客户采取行动的企业。

虽然搜索内容抓取功能诞生于网络早期,但像 ChatGPT 这样基于 LLM 的应用程序的运行方式却有着根本的不同。 搜索引擎提供带有指向原始内容链接的摘要,通过使内容可被发现来增加价值。 相反,由 LLM 提供支持的基于聊天的应用程序不一定提供返回原始内容的链接;相反,它们邀请用户留在聊天中,通过进一步的提示了解更多信息,从而耗尽创建内容的企业的所有价值。

组织不能仅仅依赖 robots.txt文件,该文件使组织能够声明爬虫的范围,因为并非所有为 LLM 培训而爬取内容的组织都会尊重 robots.txt 文件。 大语言模型 (LLM) 是否只是复制和再现内容,还是像任何创作者一样综合内容,仍有待商榷。 版权法对于大语言模型抓取的重要性目前正在法庭上讨论。 法律和规范将如何发展很难说,但组织现在应该开始思考如何保护其业务所依赖的内容。

尽管不容易,但可以减轻刮擦。 事实上,这并不是什么新问题。 数据抓取者试图通过票价、价格和费率抓取来收集航空公司、零售连锁店和酒店的竞争数据。 这些企业不仅希望避免丢失竞争数据,而且抓取数据的流量负载(尤其是那些寻求最新数据的抓取数据)在某些情况下可能达到网站所有流量的 98%,从而影响性能,甚至导致网站崩溃。

数据抓取工具使用机器人来自动收集数据。 不幸的是,传统的缓解机器人的机制,例如 CAPTCHA 和 IP 地址拒绝列表,对抓取机器人无效。 由于抓取通常被认为是合法的,因此有许多在线服务可用于绕过 CAPTCHA。 这些服务使用机器学习或点击农场来解决验证码,既快速又便宜,而且比我们大多数人破解这些恼人的难题的效率高得多。 CAPTCHA 最简单的替代方案,即 IP 拒绝列表,也因爬虫程序可用的服务而无效。 这些服务使抓取工具能够通过数千万个住宅 IP 地址发出请求——这个数字如此之大且不断增长,以至于维护拒绝列表是完全不可行的。

甚至许多专门的机器人管理解决方案在抓取数据方面也遇到了困难,因为这些解决方案依赖于信号收集仪器。 一个典型的例子就是登录。 浏览器首先发出 HTTP GET 请求来检索包含登录表单的网页。 在该页面上,JavaScript 在后台运行,收集有关浏览器和用户的打字和鼠标移动模式的数据。 当用户提交其凭证时,JavaScript 会将信号数据插入 HTTP POST 请求,充当反向代理的机器人管理解决方案会拦截并分析该请求,以确定发出请求的代理是否是机器人。

然而,许多内容网站不需要结合使用 GET 和 POST 来访问内容,无论是博客文章、新闻项目还是定价。 相反,单个 HTTP GET 请求就会返回抓取工具想要的所有内容,从而消除了进行检测的机会。

我们知道许多机器人管理解决方案都无法保护抓取内容,因为有几种服务提供了轻松的 API 访问来抓取内容。 禅行例如,列出了他们可以绕过的反机器人供应商。

幸运的是, F5 分布式云机器人防御通过一种称为插页的技术解决了这个问题 - 插页是一种快速加载、快速收集数据,然后加载请求页面内容的页面。 经过数年帮助最大的航空公司和零售商避免数据抓取,F5 已将这项技术改进得快速、高效且有效。 插页广告在每个用户会话中仅执行一次,因为一旦代理被识别为人类,除了防止重放滥用之外,不需要进一步检查。

作为最有效的机器人管理解决方案,分布式云机器人防御为内容创建者提供了最佳防御措施,防止其内容被抓取用于 LLM 模型构建。 对于想要保护其内容和业务的组织来说,分布式云机器人防御提供了最佳选择。