按来源类型分类Google新闻

时间:2019-04-04 20:29:59

标签: python search scrapy categorization

对于当前项目,我创建了一个网络抓取工具,该抓取工具将针对给定的搜索请求收集Google新闻结果的数量。

为了更详尽地分析结果,我想添加一个分类工具,该工具可以按类型(例如报纸,博客,新闻稿)分配新闻。

是否有任何可行的方法可以在scrapy / python的帮助下(也可能在外部工具或算法的支持下)按类型过滤或分配Google新闻结果?如果有人有想法,我将不胜感激。

import scrapy
import time

custom_settings = {
'USER_AGENT': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
}

class QuotesSpider(scrapy.Spider):
    name = 'spider1'
    allowed_domains = ['google.com']
    start_urls = ["https://www.google.com/search?&hl=en&q=3M&biw=1280&bih=607&source=lnt&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2004%2Ccd_max%3A12%2F31%2F2007&tbm=nws"]
    user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'

    def parse(self, response):
        item = {
            'results': response.css('#resultStats::text')[0].extract(),
            'url': response.url,
        }
        yield item
        time.sleep(1)

1 个答案:

答案 0 :(得分:2)

您可以在页面上看到一些 do 类别的文章,例如“博客”或“新闻稿”。 google news

这意味着您可以使用xpath或CSS选择器选择它们。像//h3/following-sibling::div[@class='slp']//text()这样的事情。