在Python中使用Beautifulsoup4进行异步HTML解析

时间:2019-07-04 07:32:33

标签: python asynchronous beautifulsoup

我正在制作python网络抓取脚本。我应该使用asyncio做到这一点。因此,对于异步HTTP请求,我使用AioHTTP。
没关系,但是当我尝试制作一个非阻塞应用程序(等待)时,beautifulsoup4将阻止该应用程序(因为beautifulsoup4不支持异步)

这是我的尝试。

import asyncio, aiohttp
from bs4 import BeautifulSoup

async def extractLinks(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup.select(".c-pro-box__title a")

async def getHtml(session, url):
    async with session.get(url) as response:
        return await response.text()

async def loadPage(url):
    async with aiohttp.ClientSession() as session:
        html = await getHtml(session, url)
        links = await extractLinks(html)
        return links

loop = asyncio.get_event_loop()
loop.run_until_complete(loadPage())

extractLinks()将阻止程序流。
那么这有可能使其成为非阻塞性的吗?还是除了beautifulsoup4以外,是否有任何其他库都尽可能支持异步功能?

0 个答案:

没有答案