更新时间:2023-05-09 来源:黑马程序员 浏览量:
通用网络爬虫
通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分,主要用于将互联网中的网页下载到本地,形成一个互联网网页的镜像备份。进用网络爬虫的目标是全互联网资源,数量巨大且范围广泛。
这类网络爬虫对爬行速度和存储空间的要求是非常高的,但是对抓取网页的顺序的要求相对较低。
聚焦网络爬虫
聚焦网络爬虫(Focused Web Crawler)又称主题网络爬虫(Topical Web Crawler),是指有选择性地访问那些与预定主题相关的网页的网络爬虫。它根据预先定义好的目标,有选择性地访问与目标主题相关的网页,获取所需要的数据。
与通用网络爬虫相比,聚焦网络爬虫只需要访问与预定主题相关的网页,这不仅减少了访问和保存的页面数量口而且提高了网页的更新速度。可见,聚焦网络爬虫在一定程度上节省了网络资源,能满足一些特定人群采集特定领域数据的需求。