如何从livejournal博客下载所有条目?

时间:2015-06-03 15:59:27

标签: curl wget

我试图下载一个完整的livejournal博客,以便能够完全按照在线,离线状态查看它。因此,所有链接到等的图像都应该被下载并重新链接。

页面从runawaytoday.livejournal.com/295820.html开始,以453506.html结束,增量不均匀。

我试过了:

wget --wait=2 --limit-rate=400K -r -k -p -U Mozilla http://runawaytoday.livejournal.com/

由于robots.txt文件而停止

我试图遍历这些页面,但无法正确理解:

wget -p -k ${http://runawaytoday.livejournal.com/}{295820..453506}.html

给了我" -bash:/ usr / local / bin / wget:参数列表太长"

任何帮助将不胜感激!

我在osx 10.9上使用bash版本3.2.53

1 个答案:

答案 0 :(得分:0)

您可以忽略robots.txt(虽然这可能不是最好的主意)http://wget.addictivecode.org/FrequentlyAskedQuestions#line-230

所以你的命令可能如下: wget -e robots=off --random-wait -U Mozilla --mirror -p --convert-links http://runawaytoday.livejournal.com/

--random-wait选择0.5到2秒之间的随机时间等待。