Question

我认为这个问题相对容易找到解决方案，但由于某种原因，我尝试过的答案不起作用。

我正在尝试使用wget并使用以下命令下载/镜像我的XML站点地图上的所有链接：

wget --quiet http://mytestdomain.com/sitemap-pt-sale-2015-02.xml --output-document - | egrep -o "http://mytestdomain\.com[^<]+" | wget --spider -i - --wait 0

但由于某种原因，我只看到一堆

Spider mode enabled. Check if remote file exists. --2015-02-16 12:49:33-- http://mytestdomain.com/sale/post1/ Reusing existing connection to mytestdomain.com:80. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/html] Remote file exists and could contain further links, but recursion is disabled -- not retrieving.

我不是CLI专业版，所以我不知道为什么它实际上没有将实际页面下载到static.html文件中。

所以我的问题是，如何修改上面的命令，以便将XML中的所有链接下载到static.html文件中？

由于

Answer 1

问题是你正在使用

-- spider

模式。

从手册页：

- 蜘蛛

当使用此选项调用时，Wget将表现为Web蜘蛛，其>＆gt;意味着它不会下载页面，只需检查它们是否在那里。

如果您想保证下载的文件的扩展名为.html，请使用 -E ：

wget -E -i - --wait 0

Wget从XML站点地图下载所有页面

1 个答案: