通用网络爬虫又称全网爬虫,是根据网络爬虫的基本原理实现的,它所爬取的目标会从初始设定的 URL 扩充到全网。
聚焦网络爬虫爬取的目标是与预先定义好的主题相关的网页。与通用网络爬虫相比,聚焦网络爬虫只选择爬取与主题相关的网页,极大地节省了硬件和网络资源,它主要应用于对特定领域信息有需求的场景。聚焦网络爬虫在通用网络爬虫的基础上,需要对提取的新 URL 进行过滤处理,过滤掉与目标主题无关的网页,且根据一定的相关性搜索策略,确定待爬取 URL 列表的读取顺序。
增量式网络爬虫爬取的目标是有更新的已下载网页和新产生的网页。爬虫程序监测网站数据更新的情况,然后在需要的时候只爬取发生更新或新产生的网页。这样,可有效减少数据下载量,及时更新已爬取的网页,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫主要应用于网页内容会时常更新的网站,或者不断有新网页出现的网站。
深层网络爬虫爬取的目标是不能通过静态链接获取的,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的网页,如用户注册后才可显示内容的网页。