如何从未链接的网站下载页面?

时间:2017-11-02 15:58:44

标签: wget

我正在尝试镜像整个网站" citypaper.com"使用wget 首先,它只需下载index.html并停止。 然后我找到了解决方案: wget -r -p -e robots = off http://www.citypaper.com 现在它下载链接到index.html的页面以及链接到这些页面的页面,依此类推...... 问题是有数千个页面实际上不再出现在这些页面上。 有没有办法让wget下载这些页面?

1 个答案:

答案 0 :(得分:0)

我想要的是一个网络爬虫。你可以从这样的工具开始,以获得一种感觉 https://www.screamingfrog.co.uk/crawl-javascript-seo/

相关问题