从网页获取资源URL

时间:2014-05-18 16:42:49

标签: html

当我想从我的书签转到页面并且页面消失时,我有时会感到沮丧。 我还想构建一个工具,当我为它添加书签时下载整个网页。

为此,我必须获取链接到该页面的所有资源URL:javascript,css,images,...

这里我想到了所有的xpath选择器:

//img[@src]
//link[@href] 
//script[@src]
//object[@data]
//iframe[@src]
//video[@src]
//audio[@src]

以及css文件中包含的背景图片。

你能告诉我我忘了什么吗?

1 个答案:

答案 0 :(得分:0)

wget做得很好

wget --no-parent --timestamping --convert-links --page-requisites --no-directories --no-host-directories -erobots = off http://domain.tld/webpage.html

https://superuser.com/questions/55040/save-a-single-web-page-with-background-images-with-wget