Python爬虫之协程

为什么要用协程
协程声明
await
aiohttp
aiofiles
案例修改
案例完整代码

为什么要用协程

轻量级：协程是轻量级的执行单元，可以在同一个线程中并发执行。相比于多线程或多进程，创建和切换协程的开销更小。
高效利用资源：由于协程可以在同一个线程中并发执行，因此不会涉及多个线程或进程之间的上下文切换，从而减少了额外的开销。这使得协程能够高效地利用计算资源。
简化并发编程：协程采用显式的挂起和恢复机制，程序员可以明确控制协程的执行流程。相比于多线程或多进程的共享内存模型，协程通过显式的消息传递（如使用 await、asyncio.Queue 等）来实现数据交换，简化了并发编程的复杂性。
异步非阻塞：协程通常与异步编程一起使用，可以在 I/O 密集型任务中实现非阻塞的操作。通过使用 await 关键字等待 I/O 操作完成时，可以在等待期间释放 CPU，执行其他协程任务，提高整体的并发性能。

协程声明

创建协程函数：async def func()

运行协程函数：asyncio.run(func())

注意：当调用协程函数func()后，内部代码是不会执行的，只是得到了一个协程对象，如果想要运行协程对象，则必须将其交给事件循环来处理

import asyncio

async def func():
    print("Hello, coroutine!")

# 调用协程
asyncio.run(func())

也可以这么写

import asyncio

async def func():
    print("Hello, coroutine!")

# 创建事件循环对象
loop = asyncio.get_event_loop()

# 将事件封装为任务
task = loop.create_task(func())

# 运行事件直到任务完成
loop.run_until_complete(task)

执行时间循环：`.wait()`和`.gather`

await asyncio.wait(tasks)：接受一个任务集合作为参数，并等待所有任务完成。返回两个集合（Sets）：已完成的任务集合和仍在进行中的任务集合。
await asyncio.gather(*tasks)：接受一个任务集合作为参数，并等待所有任务完成。返回每个任务的实际返回值
await task：执行单个任务，返回每个任务的实际返回值

await

await关键字后面可以定义可等待对象，例如协程对象，Future，Task对象

此处的可等待对象其实就是I/O阻塞，当await包裹的协程任务遇到阻塞时会自动从当前任务切换到另一个任务中，以节省时间和内存

result = await 表示result就是await后面的指令运行完毕后得到的结果

import asyncio


async def fun1():
    print('1')
    await asyncio.sleep(2)
    return '结束'


async def main():
    # 创建任务
    task1 = asyncio.create_task(fun1())
    task2 = asyncio.create_task(fun1())
    
    # 创建事件循环
    res1 = await task1
    res2 = await task2
    print(res1, res2)


asyncio.run(main())

也可以这么写

import asyncio


async def fun1():
    print('1')
    await asyncio.sleep(2)
    return '结束'


async def main():
	# 创建任务
    task = [asyncio.create_task(fun1()) for i in range(10)]
    
    # 创建事件循环
    res = await asyncio.gather(task)

    print(res)


asyncio.run(main())

数量太少看不出效率，但是可以证明await会等待所有任务返回结果后再继续往下运行

aiohttp

aiohttp与requests相比最大的区别就是aiohttp支持异步操作，因此用协程编写爬虫时aiohttp是相当重要的一个模块

aiohttp.ClientSession()：

用于创建异步的HTTP客户端会话对象
通过该对象发送异步请求并处理响应

session.get(url) 和 session.post(url)：

在ClientSeesion对象上调用这些方法可以发送GET/POST请求
url作为参数传递，一般就是访问的主网址

response.status 和 response.text()：

这俩响应ClientResponse对象的属性和方法
response.status返回响应状态码(如200、404等)
response.status返回响应内容的文本字符串

response.json()：

当服务器返回JSON格式的响应是，可以用该方法将响应内容解析为Python对象(字典、列表)

async with session.get(url) as response 和 async with session.post(url) as response：

使用async with语法结构，可以在异步上下文管理器中发送请求和处理响应
response是一个异步上下文管理器返回的响应对象，可以执行response.status之类的操作，并且使其能够被await包裹

利用aiohttp模块获取一个简单的浏览器响应

import asyncio
import aiohttp
from lxml import etree

url = 'https://www.baidu.com'


async def main():
    connector = aiohttp.TCPConnector(ssl=False)

    async with aiohttp.ClientSession(connector=connector) as session:
        async with session.get(url) as response:
            res = await response.text()
    et = etree.HTML(res)
    print(et)


if __name__ == '__main__':
    asyncio.run(main())

aiofiles

aiofiles与python中常用的with open操作类似，并且支持异步操作，且与asyncio配合良好

具体操作也和with open类似

读

async def read_file():
    async with aiofiles.open('file.txt', mode='r') as file:
        contents = await file.read()
        print(contents)
        
        
if __name__ == '__main__':
    asyncio.run(read_file())

写

async def write_file():
    async with aiofiles.open('file.txt', mode='w') as file:
        await file.write('Hello, World!')
        
        
if __name__ == '__main__':
    asyncio.run(write_file())

案例修改

掏出上次我们写的线程池爬虫案例：

from concurrent.futures import ThreadPoolExecutor

import requests
from lxml import etree

url = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'


def download(name, src):
    with open(name, 'wb') as f:
        f.write(requests.get(src).content)
        print(f'{name}已下载')


def main():
    res = requests.get(url=url)
    res.encoding = 'utf-8'
    et = etree.HTML(res.text)
    src = et.xpath("//td[@class='col15 leftalign']/a/@href")
    name = et.xpath("//td[@class='col0 leftalign']/text()")
    for i, index in enumerate(name):
        name[i] = index.strip()
    with ThreadPoolExecutor(64) as t:
        for i in range(len(src)):
            file_name = f"img/{name[i]}.png"
            t.submit(download, file_name, src[i])


if __name__ == '__main__':
    main()

现在开始改写

首先跟requests相关的可以全部删了换成aiohttp，比如

res = requests.get(url=url)
    res.encoding = 'utf-8'
    et = etree.HTML(res.text)

替换为

async with aiohttp.ClientSession(connector=connector) as session:
    async with session.get(url) as response:
        res = await response.text()
et = etree.HTML(res)

然后ThreadPoolExecutor相关的也可以全部用asyncio替换

for i, index in enumerate(name):
        name[i] = index.strip()
    with ThreadPoolExecutor(64) as t:
        for i in range(len(src)):
            file_name = f"img/{name[i]}.png"
            t.submit(download, file_name, src[i])

替换为

tasks = []
for i in range(len(src)):
    file_name = f"img/{name[i]}.png"
    if not os.path.exists('img'):
        os.makedirs('img')

    task = asyncio.create_task(spider(file_name, src[i]))
    tasks.append(task)
await asyncio.gather(*tasks)

文件读写的部分也可以用aiofiles重写

def download(name, src):
    with open(name, 'wb') as f:
        f.write(requests.get(src).content)
        print(f'{name}已下载')

替换成

async def spider(name, src):
    connector = aiohttp.TCPConnector(ssl=False)

    async with aiohttp.ClientSession(connector=connector) as session:
        async with session.get(src) as response:
            count = await response.read()

    async with aiofiles.open(name, 'wb') as f:
        await f.write(count)
        print(f'{name}已下载')

案例完整代码

import asyncio
import os.path

import aiofiles
import aiohttp
from lxml import etree

url = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'


async def spider(name, src):
    # 关闭SSL证书验证
    connector = aiohttp.TCPConnector(ssl=False)

    # 创建图片链接对象
    async with aiohttp.ClientSession(connector=connector) as session:
        async with session.get(src) as response:
            # 读取图片信息 准备写入本地
            count = await response.read()
    # 写入本地 下载时遇到io阻塞自动跳转其他任务
    async with aiofiles.open(name, 'wb') as f:
        await f.write(count)
        print(f'{name}已下载')


async def main():
    # 关闭SSL证书验证
    connector = aiohttp.TCPConnector(ssl=False)

    # 创建异步HTTP客户端对象
    async with aiohttp.ClientSession(connector=connector) as session:
        # 发送get请求
        async with session.get(url) as response:
            # 返回响应内容的字符串
            res = await response.text()
    et = etree.HTML(res)
    src = et.xpath("//td[@class='col15 leftalign']/a/@href")  # 图片链接
    temp_name = et.xpath("//td[@class='col0 leftalign']/text()")  # 图片名称
    for i, index in enumerate(temp_name):
        temp_name[i] = index.strip()

    # 任务列表
    tasks = []
    for i in range(len(src)):
        # 下载到本地的名称
        file_name = f"img/{temp_name[i]}.png"
        if not os.path.exists('img'):
            os.makedirs('img')

        # 批量创建asyncio异步任务 执行spider函数
        task = asyncio.create_task(spider(file_name, src[i]))
        tasks.append(task)

    # 启动
    await asyncio.wait(tasks)


if __name__ == '__main__':
    asyncio.run(main())

(src)):
        # 下载到本地的名称
        file_name = f"img/{temp_name[i]}.png"
        if not os.path.exists('img'):
            os.makedirs('img')

        # 批量创建asyncio异步任务 执行spider函数
        task = asyncio.create_task(spider(file_name, src[i]))
        tasks.append(task)

    # 启动
    await asyncio.wait(tasks)


if __name__ == '__main__':
    asyncio.run(main())