我一直在尝试找到一个从URL下载文件的解决方案,例如:https://.com//。我了解了wget并尝试了很多选项,但意识到它没有下载任何在索引文件或任何类型中没有直接链接的文件。
例如,我想从https://somesites.com/myfolder/myfiles/下载所有内容 假设在“myfiles”目录下有一个index.html,许多html文件和几个目录都在索引中引用和链接,但也有一些其他html文件,如sample123.html和sample456.html。
wget命令成功下载了所有,但是sample123.html和sample456.html几乎包含了大多数常见和众所周知的选项。
是否有其他工具可以抓取位于https://somesites.com/myfolder/myfiles/的所有文件,无论是否有直接链接?
我也试过lftp对抗http网址,但是下载结果的文件要少得多。
我为此查看了堆栈溢出,但推荐的命令只能下载带有直接链接的文件(通过wget)。
答案 0 :(得分:0)
您想要做的事情是不可能的,可能是一个安全问题。想象一下,例如,有人在文件夹中包含一些敏感数据的文件,并且该文件未在任何地方列出。您要求的工具也可以下载该文件。
如上所述,这是不可能的,这就是为什么在HTTP服务器中禁用目录列表作为安全选项总是一个好建议,以防止你想要做什么。