解决方案

管理和防御 Web 抓取

抓取入门

Web 抓取(也被称为价格抓取、数据收割、数据挖掘、数据镜像和抓取 Bot)是指使用自动化工具,从目标应用中收集大量数据,以便在其他地方重新使用这些数据。

根据请求的来源、目标和频率,抓取活动的范围可从合法到非法,变化不一。例如,符合站点 robot.txt 中定义的抓取率的搜索引擎 bot 可能会被视为可接受的,而来自竞争对手的每日价格抓取有可能存在恶意目的。

美国五大航空公司之一正在亏损

抓取程序正在增加航空公司的基础设施成本,并影响航空公司管理营收的能力,因此安全团队前来向 F5 寻求帮助。

案例研究:国际航空公司防御费用抓取程序

要点:

  • 旅行类聚合渠道利用 bot 发现不符合规定的票价方案,并将其公之于众
  • 抓取占主搜索 URL 流量的 25%
  • 在使用 F5 服务前,恶意抓取程序可以规避目前所有的安全解决方案

25%

恶意抓取占一个 URL 中所有搜索流量的 25%。

抓取的 3 个步骤

1. 编写攻击脚本

使用自动化工具、现成的脚本,甚至是“抓取即服务”提供商,攻击者可以很容易地创建脚本来发现和抓取网站内容,包括价格、促销、文章和元数据。

攻击者如何模拟用户

Gartner Research 的一位杰出副分析师展示了攻击者模仿用户所采用的技术。

2. 收集数据

根据攻击者的技能和目的,抓取活动涉猎的范围可从公开到隐蔽。抓取脚本的执行可能分布在数百或数千台服务器中,以便与企业的整个用户群流量模式相融合。

营销团队可能会最先察觉抓取攻击(包括搜索排名下降和转换率变差)。

3. 货币化

提取的数据可能会被出售,并用于价格比较网站,甚至用于创建仿冒网站以达到欺诈目的。

即便抓取程序的是一个合作伙伴,企业也可能更希望其从指定的 API 中检索数据,而不是直接从 Web 服务器请求数据,从而消耗昂贵的资源。

Deliver and Secure Every App
F5 application delivery and security solutions are built to ensure that every app and API deployed anywhere is fast, available, and secure. Learn how we can partner to deliver exceptional experiences every time.
Connect With Us