加快检索过程

时间:2018-11-21 16:36:02

标签: web-crawler stormcrawler

使用ES 6.5.x和Storm爬网程序1.10。我如何加快搜寻器的速度以获取记录。当我检查其爬网指标时,平均每秒显示0.4页。在下面的搜寻器配置中,我需要更改什么吗? enter image description here

Crawler-Conf:

<input 
    type='button' 
    id='input1' 
    :class='["btn", error && "btn-success" ]'
    value='Submit'/>

1 个答案:

答案 0 :(得分:1)

如果要爬网一个站点,则不需要2个工作程序或一个以上的ES碎片和喷口!无论如何,所有URL都将定向到单个分片!

每个队列使用5个线程,但每个桶仅从ES检索2个URL( es.status.max.urls.per.bucket:2 ),并在两次ES调用之间强制使用2秒( spout.min.delay.queries:2000 ),因此,平均而言,喷口每秒生成的网址不能超过1个。此外, ES_IndexInit.sh 中的 refresh_interval 也会影响索引中可见更改的速度,从而影响从请求中获取新URL的可能性。

只需将 es.status.max.urls.per.bucket 更改为较大的值,例如10,然后将 spout.min.delay.queries 拖放到与 ES_IndexInit.sh 中的 refresh_interval 相同的值,例如1秒。这将为您提供更多的URL。