python selenium.webdriver 爬取政策文件

news2026/5/1 4:28:16

文章目录

- - - 获取文章链接
    - 批量爬取政策文件
    - - 应用selenium爬取文件信息
      - 数据处理
      - 导出为excel

获取文章链接

获取中央人民政府网站链接，进入国务院政策文件库，分为国务院文件和部门文件（发改委、工信部、交通运输部、市场监督局、商务部等）
在这里插入图片描述
搜索关键词——汽车，即可得到按照相关度或者时间排列的政策文件。

批量爬取政策文件

批量获取文件链接并存入列表

应用selenium爬取文件信息

利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。

右侧通过光标定位各部分信息，右键点击 copy 并选择 copy xpath即可复制xpath路径。
在这里插入图片描述

完整代码

from selenium import webdriver
from urllib.error import HTTPError
from selenium.webdriver.common.by import By   #selenium新版本写法
import warnings
warnings.filterwarnings('ignore')

"""
爬虫国务院文件
传入链接，返还链接内的全部内容，生成字典
"""
def get_info(id,url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    driver = webdriver.Chrome(options=options)
    link = {}

    driver.get(url)
    
    try:
        link['文章ID'] = id  # 序列ID，从0—现有的文件数
        link['链接'] = url  # 原文链接
        #time.sleep(3)
        link['索引号'] = driver.find_element(By.XPATH,
            '/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[2]').text  # 索引号
        link['标题'] = driver.find_element(By.XPATH,
            "/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[3]/td[2]").text  # 标题
        link['发文机关'] = driver.find_element(By.XPATH,
            "/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[2]").text  # 发文机关
        link['发文字号'] = driver.find_element(By.XPATH,
            "/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[2]").text  # 发文字号
        link['主题分类'] = driver.find_element(By.XPATH,
            "/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[4]").text  # 主题分类
        link['成文日期'] = driver.find_element(By.XPATH,
            "/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[4]").text  # 成文日期
        link['发布日期'] = driver.find_element(By.XPATH,
            '/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[4]')   # 发布日期
        
        link['文件内容'] = driver.find_element(By.XPATH,"//*[@id='UCAP-CONTENT']").text  # 内容

        with open('汽车/国务院文件/'+link['标题']+'.txt','w',encoding='utf-8') as file:
            file.write(link['文件内容'])

    except HTTPError:
        return None

    driver.quit()

    return link

数据处理

每次爬取单一文件信息并整理为dataframe，之后按行合并。

import pandas as pd

df = pd.DataFrame()
with open('link1.txt','r',encoding='utf-8') as f:
    links = f.readlines()

for id,url in enumerate(links):
    url = url.strip('\n')
    print(url)
    result = get_info(id,url)

    df1 = pd.DataFrame.from_dict(result,'index').T
    df = pd.concat([df,df1],axis=0)

df

在这里插入图片描述

导出为excel

df.to_excel('汽车行业政策文本研究.xlsx',index=False)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/759057.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python selenium.webdriver 爬取政策文件

文章目录

获取文章链接

批量爬取政策文件

应用selenium爬取文件信息

数据处理

导出为excel

相关文章

JavaScript 中五种迭代数组的方法 every some map filter forEach

串联型PI和并联型PI调节器的比较

从新的角度看待大模型微调

【SQL应知应会】表分区（二）• MySQL版

【运维】第03讲（下）：Nginx 负载均衡常见架构及问题解析

从代码角度戳一下springMVC的运行过程-spring16

WAIC2023丨AI图像内容安全“黑科技”如何助力科技发展？

latex3【排版】

贪吃蛇游戏制作

记一次linux服务器k8s服务失败，重新安装centos系统并部署k8s以及服务【2023年7月15日】

FL Studio 21具有哪些功能？flstudio21会有什么新功能

[QT编程系列-15]: 基础框架 - 信号与槽，connect函数详解

hadoop -- Hbase

AIGC之文本内容生成概述（下）——Transformer

electron+vue3全家桶+vite项目搭建【23】url唤醒应用，并传递参数

SpringMVC【SpringMVC拦截器、 SpringMVC跨域请求、SSM整合】(七)-全面详解（学习总结---从入门到深化）

Gradle和Aritifactory，实现上传Apk并发送消息到钉钉

【力扣周赛】第 354 场周赛

dede tag彩色随机大小的样式修改方法

（中等）剑指Offer II 062.实现前缀树 Java