互联网56%的网页浏览量都由爬虫机器人贡献

  网站安全和内容分发公司 Incapsula 发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。

  爬虫机器人因为功能和目的不同分为这几类:

  Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。百度和 Google 就使用这个爬虫整理全世界的信息。

  RSS bots:订阅类爬虫,能够从网站抓取内容聚合起来,鲜果、今日头条和网页新闻客户端就使用了这类爬虫。   Scrapers:网页爬虫,一般是盗取内容、邮箱地址和逆向破解定价模型,它可以作用在电子商务网站。   Impersonator:拟人伪装爬虫,它能够伪装成搜索引擎或者浏览器,以避免被网站发现。它能够搜集营销情报,发动 DDos 攻击,消耗带宽甚至使网站瘫痪。   Hacking Tools:黑客工具,它能够盗取信息,植入流氓软件,破坏网页内容甚至劫持网站和服务器。   Spammers:垃圾邮件发送工具,它可以骚扰普通访客,发布无关内容或者钓鱼链接。它还可以加载过量链接,让网站进入搜索引擎的黑名单而从互联网 “消失”。

  在 56 %的访问中,恶意爬虫机器人占比 29%,善意占比 27%。随着 RSS 爬虫的减少,善意爬虫的比例更小了。

  大部分网站的爬虫访问比例在 63% 到 80% 之间,越小的网站爬虫访问的比例越高。搜索引擎爬虫是这一现象的主要原因,它对小网站和大网站几乎无差别对待,而平均每个网站一天要被谷歌的搜索引擎爬虫访问 187 次。

  拟人伪装爬虫增长很快,它是过去 3 年里唯一持续增长的爬虫。在上面提到的 Google 搜索引擎爬虫中,平均来说每 24 次访问就会有一个伪装爬虫来访。在这些伪装爬虫中,25.16% 来自美国,中国占比 15.61%,是第二大的来源国。

  RSS 爬虫逐渐走向衰落。老一代 RSS 工具,例如 Google Reader、鲜果都已经走向死亡。

  Incapsula 的数据来源于 20000 个每天至少有 10 个访问量的网站,它整理了过去 90 天的 150 亿次访问数据得出了这个结果。

  我们的所见所得,数据安全,带宽消耗和广告浏览都和爬虫机器人息息相关,它们重塑了我们工作和生活的方式。

热门相关:修真从武侠开始   重生落魄农村媳   凤惊天下:金牌杀手妃   召唤梦魇   恶女从良