F5 术语

抓取

什么是抓取?

抓取,也称为网络抓取,是指从网站内容中提取和收集特定信息的技术或实践。 “刮擦”一词源于英语单词“scrape”,意为“刮掉”或“去除”。 在网站的背景下,抓取涉及从网站提取信息。

网络抓取可以针对网站上的可见元素以及网站内存储的隐藏数据。 这包括文本、图像、视频、HTML 代码、CSS 代码等。 提取通常由计算机程序或机器人进行,它们像人类用户一样与网站进行交互。 然后对抓取的数据进行处理并将其用于各种目的。

刮擦 vs. 爬行

抓取常常与爬行相混淆,爬行是另一种涉及网站的技术。 爬行是指系统地浏览网站的 HTML 源代码以进行全面的数据收集,通常强调“遍历”网站。 相比之下,抓取则侧重于提取特定的、必要的信息。 例如,谷歌的搜索引擎使用爬虫来索引网页,这是爬取的一个典型例子。

网页抓取用例

网络抓取的常见用例包括:

  • 收集联系信息: 从电子商务或订阅网站中提取存储在会员数据库中的电话号码和电子邮件地址,以用于营销列表。
  • 监控搜索排名: 检查公司网站的特定页面在 Google 等搜索引擎中的排名,并将其与竞争对手的排名进行比较。
  • 收集产品价格和评论: 从电子商务网站提取产品名称、价格和评论以进行竞争分析。
  • 收集动态数据: 收集酒店空房情况、拍卖价格波动和股票价格等实时信息来创建新的内容或服务。

网页抓取带来的威胁

虽然网络抓取有合法的用例,但它也可能被恶意利用,给网站运营商带来风险,例如个人信息滥用和安全漏洞。 常见威胁包括:

  • 未经授权上传数据侵犯版权: 未经许可从网站上抓取原始图像或内容并将其上传到其他网站可能会侵犯版权、个人数据保护和知识产权。
  • 过度监控和业务中断: 过度抓取竞争对手的网站可能会降低系统性能或扰乱正常的浏览和交易。 在某些情况下,恶意抓取的目的是增加系统运营成本。
  • 网络钓鱼诈骗: 抓取的网站数据可用于创建模仿原始网站的虚假钓鱼网站,诱骗用户输入信用卡详细信息等敏感信息。

防止网络抓取威胁

网络运营商必须主动采取措施应对抓取威胁。 主要方法包括:

  • 实施机器人管理系统: 部署检测并阻止试图从网站或网络应用抓取数据的自动机器人的系统。 有些系统专门阻止机器人提取数据,使得爬虫无法使用机器人收集数据。
  • 速率限制和数据限制:
    • 速率限制: 限制用户在特定时间范围内可以执行的操作数量。 例如,异常快速的内容请求可以被标记并限制为机器人活动。
    • 数据限制: 限制用户可以从站点提取的数据量,防止过度数据收集,同时允许正常访问。