Web 抓取(也被称为价格抓取、数据收割、数据挖掘、数据镜像和抓取 Bot)是指使用自动化工具,从目标应用中收集大量数据,以便在其他地方重新使用这些数据。
根据请求的来源、目标和频率,抓取活动的范围可从合法到非法,变化不一。例如,符合站点 robot.txt 中定义的抓取率的搜索引擎 bot 可能会被视为可接受的,而来自竞争对手的每日价格抓取有可能存在恶意目的。
抓取程序正在增加航空公司的基础设施成本,并影响航空公司管理营收的能力,因此安全团队前来向 F5 寻求帮助。
使用自动化工具、现成的脚本,甚至是“抓取即服务”提供商,攻击者可以很容易地创建脚本来发现和抓取网站内容,包括价格、促销、文章和元数据。
Gartner Research 的一位杰出副分析师展示了攻击者模仿用户所采用的技术。
根据攻击者的技能和目的,抓取活动涉猎的范围可从公开到隐蔽。抓取脚本的执行可能分布在数百或数千台服务器中,以便与企业的整个用户群流量模式相融合。
营销团队可能会最先察觉抓取攻击(包括搜索排名下降和转换率变差)。
提取的数据可能会被出售,并用于价格比较网站,甚至用于创建仿冒网站以达到欺诈目的。
即便抓取程序的是一个合作伙伴,企业也可能更希望其从指定的 API 中检索数据,而不是直接从 Web 服务器请求数据,从而消耗昂贵的资源。