找出网页中的广告数量

时间:2019-01-05 10:17:05

标签: python ads

我正在一个计算网页中广告数量的项目中。我的策略是获取网页中所有iframe广告代码的“ src”,然后检查“ iframe”与网页的“ netloc”是否相同,然后才是广告。您对改善策略有何建议? 我的代码是:

def get_ads():

 number_of_ads=0

 images=soup.findAll("iframe")
 for image in images:
    if str(image['src'].split("/")[2]) not in urllib.parse.urlparse(url).netloc:
        number_of_ads = number_of_ads + 1
 print('     The Number of Ads is ' + number_of_ads)

1 个答案:

答案 0 :(得分:0)

我觉得很难在每个网页中识别所有类型的广告。您同样依赖iframe,但是,某些广告可能会在一定范围内展示,或者是一个图,可能有n种方式。

您需要进行研究,找出广告模式(如果有)。您最好还是创建为不同广告提供商标识的模式列表,并让您的代码标识它们。

对于即将发布的列表中的一小部分,您可以使用以下广告列表链接: http://pgl.yoyo.org/as/serverlist.php?hostformat=adblockplus