Wget在网页的子链接中下载许多文件

时间:2018-02-19 03:48:02

标签: download wget subdirectory

我正在尝试使用wget下载许多文件(~30,000),所有文件都在以下网页中:

http://galex.stsci.edu/gr6/?page=tilelist&survey=ais&showall=Y

但是,单击Fits后,实际数据位于子链接下,然后显示此子链接下的某个文件。例如,第一个文件的子链接如下:

http://galex.stsci.edu/gr6/?page=downloadlist&tilenum=50270&type=coaddI&subvis=28&img=1

我只想在此子链接中下载一个文件:Intensity MapNUV。在上面这种情况下,它是我要下载的第二个文件。

所有文件都具有相同的结构。我如何使用wget下载子链接下的所有文件?

1 个答案:

答案 0 :(得分:1)

乐队 NUV 文件的强度地图有一个共同的结尾,这应该允许您在目标网站上仅使用wget -r -A "*nd-int.fits.gz"下载所需的文件。这采用了wget的递归函数-r和接受列表函数-A。概述here的Accept List功能只会根据扩展名,名称或命名约定下载所需的文件。 wget递归函数是否可以成功抓取整个目标网站,这是您必须要测试的。

如果上述方法无效,网站似乎有一些方便的工具可用于过滤可用文件,例如catalog search

相关问题