Wget - 下载网页中的所有文件?

时间:2018-05-03 20:31:51

标签: wget

我正在使用此wget命令从that URL下载所有.fits文件:

wget -r -np -nd -l inf -A fits https://archive.stsci.edu/missions/tess/ete-6/tid/00/000/000/057/

这是基于this answer的改编。

所有我得到的是一个目录结构,它反映了网站上的URI一直到/ 057 /,但是没有文件。

如果我添加-nd,那么我只会获得一个不太有启发性但仍然没有文件的robot.txt文件。

我没有得到关于如何使用wget的内容?

编辑:基于Turgbek在下面的回答,我确实看到该网站上的robot.txt文件实际上在“Disallow”中有/ tasks / ...也许这是阻止我使用wget命令的原因?这是问题的根源吗?我怎么能解决这个问题?

1 个答案:

答案 0 :(得分:0)

robots.txt中有一个声明:

  

禁止:/ mission /

您所请求的文件位于哪个位置。由于网址建立为/missions/tess/ete-6/tid/00/000/000/057/,我认为robots.txt阻止了您。

我在Raspberry Pi中保存了该网址中的两个文件,并在没有robots.txt的情况下运行了本地测试。使用此命令:

  

wget -r -np -nd -l inf -A符合192.168.1.250/test /

它按预期工作,我收到了两个文件。

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   3.77M/s   in 0.5s

2018-05-03 23:46:51 (3.77 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits' saved [2090880/2090880]

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   4.61M/s   in 0.4s

2018-05-03 23:46:52 (4.61 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits' saved [2090880/2090880]