我正在一个计算网页中广告数量的项目中。我的策略是获取网页中所有iframe广告代码的“ src”,然后检查“ iframe”与网页的“ netloc”是否相同,然后才是广告。您对改善策略有何建议? 我的代码是:
def get_ads():
number_of_ads=0
images=soup.findAll("iframe")
for image in images:
if str(image['src'].split("/")[2]) not in urllib.parse.urlparse(url).netloc:
number_of_ads = number_of_ads + 1
print(' The Number of Ads is ' + number_of_ads)
答案 0 :(得分:0)
我觉得很难在每个网页中识别所有类型的广告。您同样依赖iframe,但是,某些广告可能会在一定范围内展示,或者是一个图,可能有n种方式。
您需要进行研究,找出广告模式(如果有)。您最好还是创建为不同广告提供商标识的模式列表,并让您的代码标识它们。
对于即将发布的列表中的一小部分,您可以使用以下广告列表链接: http://pgl.yoyo.org/as/serverlist.php?hostformat=adblockplus