hadoop - hadoop map任务超时

每部分CrawlDb 10-20 GB听起来很多，但也取决于部分是否可拆分（参见mapreduce.input.fileinputformat.split.minsize和mapreduce.output.fileoutputformat.compress.codec）。

我最喜欢的＆＃34; CrawlDb的设置是

使用BZip2Codec（可拆分）和
将部件大小限制为2000万个URL。通过-Dmapreduce.job.reduces=XXX相应地将减速器数量设置为写入CrawlDb的所有作业（updatedb，inject，mergedb，dedup），大约1GB（压缩bzip2）

但是，要为群集设置和硬件找到最佳选项，可能需要进行一些实验。只需确保没有任务花费太长时间并占据作业执行时间。