通用网络爬虫和聚焦网络爬虫有什么区别？

更新时间:2023-05-09 来源:黑马程序员浏览量:

IT培训班

通用网络爬虫

　　通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫，它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分，主要用于将互联网中的网页下载到本地，形成一个互联网网页的镜像备份。进用网络爬虫的目标是全互联网资源，数量巨大且范围广泛。

这类网络爬虫对爬行速度和存储空间的要求是非常高的，但是对抓取网页的顺序的要求相对较低。

聚焦网络爬虫

　　聚焦网络爬虫(Focused Web Crawler)又称主题网络爬虫(Topical Web Crawler),是指有选择性地访问那些与预定主题相关的网页的网络爬虫。它根据预先定义好的目标，有选择性地访问与目标主题相关的网页，获取所需要的数据。

与通用网络爬虫相比，聚焦网络爬虫只需要访问与预定主题相关的网页，这不仅减少了访问和保存的页面数量口而且提高了网页的更新速度。可见，聚焦网络爬虫在一定程度上节省了网络资源，能满足一些特定人群采集特定领域数据的需求。

上一篇：怎样对MySQL的limit分页查询进行优化？ 下一篇：什么是表层网页？什么是深层网页？