Wget从XML站点地图下载所有页面

时间:2015-02-16 04:57:24

标签: xml wget

我认为这个问题相对容易找到解决方案,但由于某种原因,我尝试过的答案不起作用。

我正在尝试使用wget并使用以下命令下载/镜像我的XML站点地图上的所有链接:

wget --quiet http://mytestdomain.com/sitemap-pt-sale-2015-02.xml --output-document - | egrep -o "http://mytestdomain\.com[^<]+" | wget --spider -i - --wait 0

但由于某种原因,我只看到一堆

Spider mode enabled. Check if remote file exists. --2015-02-16 12:49:33-- http://mytestdomain.com/sale/post1/ Reusing existing connection to mytestdomain.com:80. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/html] Remote file exists and could contain further links, but recursion is disabled -- not retrieving.

我不是CLI专业版,所以我不知道为什么它实际上没有将实际页面下载到static.html文件中。

所以我的问题是,如何修改上面的命令,以便将XML中的所有链接下载到static.html文件中?

由于

1 个答案:

答案 0 :(得分:2)

问题是你正在使用

-- spider 

模式。

从手册页:

  

- 蜘蛛

     

当使用此选项调用时,Wget将表现为Web蜘蛛,其>&gt;意味着它不会下载页面,只需检查它们是否在那里。

如果您想保证下载的文件的扩展名为.html,请使用 -E

wget -E -i - --wait 0
相关问题