第一章网络爬虫入门思维导图

弓长-张

2024-05-07

浏览量: 35

网络爬虫

爬虫协议

工作流程

网络爬虫，工作流程，爬虫协议等内容讲解

树图思维导图提供《第一章网络爬虫入门》在线思维导图免费制作，点击“编辑”按钮，可对《第一章网络爬虫入门》进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：8ca6c581dc5916a840e3534493e216cb

思维导图大纲

网络爬虫概述

网络爬虫原理

网络爬虫又称为“网络蜘蛛”，是一个用实现自动采集网络数据的程序。

网络爬虫分类

网络爬虫按照系统结构和工作原理的不同，大致可以分为四类: 通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。

通用网络爬虫又称全网爬虫，是根据网络爬虫的基本原理实现的，它所爬取的目标会从初始设定的 URL 扩充到全网。

聚焦网络爬虫爬取的目标是与预先定义好的主题相关的网页。与通用网络爬虫相比，聚焦网络爬虫只选择爬取与主题相关的网页，极大地节省了硬件和网络资源，它主要应用于对特定领域信息有需求的场景。聚焦网络爬虫在通用网络爬虫的基础上，需要对提取的新 URL 进行过滤处理，过滤掉与目标主题无关的网页，且根据一定的相关性搜索策略，确定待爬取 URL 列表的读取顺序。

增量式网络爬虫爬取的目标是有更新的已下载网页和新产生的网页。爬虫程序监测网站数据更新的情况，然后在需要的时候只爬取发生更新或新产生的网页。这样，可有效减少数据下载量，及时更新已爬取的网页，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫主要应用于网页内容会时常更新的网站，或者不断有新网页出现的网站。

深层网络爬虫爬取的目标是不能通过静态链接获取的，隐藏在搜索表单后的，只有用户提交一些关键词才能获得的网页，如用户注册后才可显示内容的网页。

网络爬虫应用

每个独立的搜索引擎都有自己的爬虫程序，爬虫程序每天连续地爬取相关网站，提取信息保存到索引数据库中，如 Google 爬虫 Googlebot、百度爬虫 Baiduspider、必应爬虫Bingbot 等。此外，有些搜索引擎对应不同的业务还有不同的爬虫，如百度图片爬虫Baiduspider-image、百度新闻爬虫 Baiduspider-news 等。搜索引擎在用户输入搜索信息后并不是直接搜索整个互联网，而是对预先建立好的索引数据库进行检索。

网络爬虫工作流程

网页爬取

爬虫程序首先要做的工作是爬取网页，即获取网页的源代码。源代码里包含了网页的有用信息，所以只要把源代码爬取下来，就可以从中提取想要的信息。爬虫程序向网站的服务器发送一个HTTP 请求，服务器返回给爬虫程序包含所需数据的 HTIP 响应(即网页源代码)。Python 提供了许多与网络爬虫相关的库，其中，在爬取网页方面有urllib、requests、selenium 库等。

解析网页

爬取网页后，接下来就是解析网页了。解析网页是用户根据网页结构，分析网页源代码，从中提取想要的数据。它可以使杂乱的数据变得条理清晰，以便用户后续处理和分析.解析网页万能的方法是正则表达式，但是构造正则表达式比较复杂且容易出错，所以Pvthon 根据网页节点属性、CSS 选择器及XPath 语法提供了网页的解析库，如beautifulsoup4、lxml库等。使用这些库，用户可以高效快速地解析网页。

存储数据

解析网页提取数据后，一般要将提取到的数据保存起来以便后续使用。保存数据的方式有很多种,可以将其简单保存到JSON或CSV文件中,也可以保存到数据库中,如MySOI和MongoDB 等。

网络爬虫协议

网络爬虫合法性

虽然互联网世界已经通过自己的规则建立了一定的道德规范 (Robots 协议)，但法律部分还在建立和完善中。从目前的情况来看，如果抓取的数据用于个人使用或科学研究，那么基本上是不违法的;但如果数据用于其他用途，尤其是转载或商业用途，那么根据爬取网站数据的不同情况有不同的后果，严重的将会引起民事纠纷甚至触犯法律。

用户在爬取数据时应避免以下几个方面的问题。 (1)侵犯著作权。 (2)侵犯商业秘密 (3)侵犯个人隐私。 (4)构成不正当竞争。 (5) 侵入计算机系统，构成刑事犯罪总之，用户在爬取网站数据时，需要限制自己的爬虫程序遵守 Robots 协议，同时控制爬虫程序请求网页的速度。在使用数据时，必须尊重网站的知识产权。

Robots 协议

Robots 协议(又称“爬虫协议”)的全称是“网络爬虫排除标准”(Robots exclusionprotocol)。网站管理者可以通过它来表达是否希望爬虫程序自动获取网站信息的意愿。