解决方案

管理和防御 Web 抓取


无需管理解决方案即可管控抓取程序

谢谢!

F5 专家将尽快与您联系。

抓取入门

Web 抓取(也被称为价格抓取、数据收割、数据挖掘、数据镜像和抓取 Bot)是指使用自动化工具,从目标应用中收集大量数据,以便在其他地方重新使用这些数据。

根据请求的来源、目标和频率,抓取活动的范围可从合法到非法,变化不一。例如,符合站点 robot.txt 中定义的抓取率的搜索引擎 bot 可能会被视为可接受的,而来自竞争对手的每日价格抓取有可能存在恶意目的。

美国五大航空公司之一正在亏损

抓取程序正在增加航空公司的基础设施成本,并影响航空公司管理营收的能力,因此安全团队前来向 F5 寻求帮助。

要点:

  • 旅行类聚合渠道利用 bot 发现不符合规定的票价方案,并将其公之于众
  • 抓取占主搜索 URL 流量的 25%
  • 在使用 F5 服务前,恶意抓取程序可以规避目前所有的安全解决方案

抓取的 3 个步骤

1. 编写攻击脚本

使用自动化工具、现成的脚本,甚至是“抓取即服务”提供商,攻击者可以很容易地创建脚本来发现和抓取网站内容,包括价格、促销、文章和元数据。

攻击者如何模拟用户

Gartner Research 的一位杰出副分析师展示了攻击者模仿用户所采用的技术。

2. 收集数据

根据攻击者的技能和目的,抓取活动涉猎的范围可从公开到隐蔽。抓取脚本的执行可能分布在数百或数千台服务器中,以便与企业的整个用户群流量模式相融合。

营销团队可能会最先察觉抓取攻击(包括搜索排名下降和转换率变差)。

3. 货币化

提取的数据可能会被出售,并用于价格比较网站,甚至用于创建仿冒网站以达到欺诈目的。

即便抓取程序的是一个合作伙伴,企业也可能更希望其从指定的 API 中检索数据,而不是直接从 Web 服务器请求数据,从而消耗昂贵的资源。