解决方案

管理和防御 Web 抓取

抓取入门

抓取指代使用自动化工具从目标应用收集大量数据,以便在其他渠道重复使用这些数据。

根据请求的来源、目标和频率,抓取活动的范围可从合法到非法,变化不一。例如,符合站点 robot.txt 中定义的抓取率的搜索引擎机 bot 可能会被视为可接受的,而来自竞争对手的每日价格抓取有可能存在恶意目的。

 

美国五大航空公司之一正在亏损

抓取程序正在增加航空公司的基础设施成本,并影响航空公司管理营收的能力,因此安全团队前来向 Shape索取帮助。

案例研究:国际航空公司防御费用抓取程序

要点:

  • 旅行类聚合渠道利用 bot 发现不符合规定的票价方案,并将其公之于众
  • 抓取占主搜索 URL 流量的 25%
  • 在使用 Shape 服务前,恶意抓取程序可以规避目前所有的安全解决方案

25%

恶意抓取占一个 URL 中所有搜索流量的 25%。

抓取的 3 个步骤

1. 编写攻击脚本

使用自动化工具、现成的脚本,甚至是“抓取即服务”提供商,攻击者可以很容易地创建脚本来发现和抓取网站内容,包括价格、促销、文章和元数据。

攻击者如何模拟用户

Shape Intelligence 副总裁展示了攻击者用来模仿用户的技术。

2. 收集数据

根据攻击者的技能和目的,抓取活动涉猎的范围可从公开到隐蔽。抓取脚本的执行可能分布在数百或数千台服务器中,以便与企业的整个用户群流量模式相融合。

营销团队可能会最先察觉抓取攻击(包括搜索排名下降和转换率变差)。

3. 货币化

提取的数据可能会被出售,并用于价格比较网站,甚至会被用于创建仿冒网站,达到欺诈目的。

即便抓取程序并没有恶意目的,但企业可能更倾向于相关方从指定的 API 检索数据,而不是直接从 Web 服务器请求数据而消耗昂贵的资源。

无需管理解决方案即可管控抓取程序

Thank you! 

A Shape expert will contact you as soon as possible.