wget - 如何从未链接的网站下载页面？

如何从未链接的网站下载页面？

时间：2017-11-02 15:58:44

标签： wget

我正在尝试镜像整个网站＆＃34; citypaper.com＆＃34;使用wget 首先，它只需下载index.html并停止。然后我找到了解决方案： wget -r -p -e robots = off http://www.citypaper.com 现在它下载链接到index.html的页面以及链接到这些页面的页面，依此类推...... 问题是有数千个页面实际上不再出现在这些页面上。有没有办法让wget下载这些页面？

1 个答案:

答案 0 :(得分：0)

我想要的是一个网络爬虫。你可以从这样的工具开始，以获得一种感觉 https://www.screamingfrog.co.uk/crawl-javascript-seo/

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？