- 爬虫深入 
  - 使用场景分类 
    - 通用爬虫:抓取系统的重要组成部分,抓取的是一整张页面数据
 - 聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容
 - 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
 
 - 矛与盾 
    - 反爬机制 
      - 门户网站可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取
 
 - 反反爬策略 
      - 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站网络数据
 
 
- 反爬机制 
      
 - robots.txt协议 
    - 君子协议,规定了网站中哪些数据可以被爬虫爬取,那些数据不可以被爬取
 
 - http&https协议 
    - 概念:服务器和客户端进行数据交互的一种形式
 - 常用请求头信息 
      - User-Agent:请求载体的身份标识
 - Connection:请求完毕后,是断开连接还是保持连接
 
 - 常用响应头信息 
      - Content-Type:服务器响应回客户端的数据类型
 
 - https协议 
      - 安全的超文本传输协议,对数据有加密
 
 - 加密方式 
      - 对称密钥加密 
        - 客户端会将发送给服务端的信息进行加密,加秘密钥和加密信息同时发送给服务端  
 
- 客户端会将发送给服务端的信息进行加密,加秘密钥和加密信息同时发送给服务端 
 - 非对称密钥加密 
        - 服务端先将将要发送的信息加密方式发送给客户端(给公钥,保留私钥),客户端接收到后,再用该方式(公钥)对信息进行加密,再把密文给服务端,服务端可利用保留的私钥进行解密  
 
- 服务端先将将要发送的信息加密方式发送给客户端(给公钥,保留私钥),客户端接收到后,再用该方式(公钥)对信息进行加密,再把密文给服务端,服务端可利用保留的私钥进行解密 
 - 证书密钥加密 
        - 服务端携带公开密钥向数字证书认证机构提出公开密钥的申请,数字证书认证机构再认清申请者的身份,审核通过后会对申请的公开密钥做数字签名,然后分配这个已签名的公开密钥,并将密钥放在证书里面绑定一起
 - 服务端现将数字证书发送给客户端,因为客户端也认可证书机构,客户端可以通过数字证书中的数字签名来验证公钥的真伪,确保服务器传过来的公钥是真实的。
 - 一般来说证书的数字签名,很难被伪造,取决于认证机构的公信力,一但确认信息无误之后,客户端就会通过公钥对报文进行加密发送,服务端接收到之后用自己的私钥进行解密  
 
 
- 对称密钥加密 
        
 
 
- 使用场景分类 
    



















