为什么在爬虫程序架构中需要DNS解析器?

时间:2012-10-28 05:12:13

标签: dns network-programming web-crawler

在我读过的每篇关于抓取工具提案的论文中,我看到一个重要的组成部分是 DNS解析器

我的问题是:

为什么有必要?我们不能只向http://www.some-domain.com/提出请求吗?

1 个答案:

答案 0 :(得分:3)

  

DNS解析是网络抓取中众所周知的瓶颈。因为   域名服务的分布式性质,DNS解析可能   需要通过互联网进行多次请求和往返,   要求秒,有时甚至更长。马上,这就投入了   危及我们每秒获取数百份文件的目标。

     

DNS解析还存在另一个重要问题;查找   标准库中的实现(可能被任何人使用)   开发爬虫)通常是同步的。这意味着一次   向域名服务请求,其他爬虫线程在   在第一个请求完成之前,该节点将被阻止。至   为了避免这种情况,大多数网络抓取工具都会实现自己的DNS解析器   抓取工具的一个组件。

http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html