使用wget下载所有pdf文件

时间:2013-11-09 21:01:16

标签: wget

我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令,但运气不好。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

使用此代码只下载了四个PDF文件。查看此链接,有超过数千个PDF可用:

例如,以下文件夹中有数百个文件:

但我无法弄清楚如何正确访问它们以查看和下载它们,此子目录中有一些文件夹,http://www.asd.com.tr/Folders/以及这些文件夹中的数千个PDF文件。

我尝试使用-m命令镜像网站,但也失败了。

还有其他建议吗?

1 个答案:

答案 0 :(得分:8)

首先,验证网站的TOS是否允许抓取它。然后,一个解决方案是:

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump命令附带Perl的模块WWW::Mechanize(debian& debian上的libwww-mechanize-perl包喜欢发行版)