使用Python克隆整个Wordpress站点,无需服务器访问

时间:2014-11-11 17:44:37

标签: python wordpress web-crawler

我正在尝试使用python保存整个Wordpress站点的内容,而不使用ftp / server访问。换句话说,我想将WordPress网站的“完整副本或最接近的可能”保存到磁盘,我无法从ftp / server下载所有内容。

我找到了一些选项来迭代组成网站的各个页面,但没有什么可以“整个网站保存。”

3 个答案:

答案 0 :(得分:2)

如果你真的想使用Python而不是别的,你可以使用wpull,这是一个用Python编写的wget克隆。他们有一个在他们的文档中存档/下载整个网站的例子。

wpull billy.blogsite.example --warc-file blogsite-billy \
--no-check-certificate \
--no-robots --user-agent "InconspiuousWebBrowser/1.0" \
--wait 0.5 --random-wait --waitretry 600 \
--page-requisites --recursive --level inf \
--span-hosts --domains blogsitecdn.example,cloudspeeder.example \
--hostnames billy.blogsite.example \
--reject-regex "/login\.php"  \
--tries inf --retry-connrefused --retry-dns-error \
--delete-after --database blogsite-billy.db \
--quiet --output-file blogsite-billy.log

答案 1 :(得分:1)

不使用python(虽然我确定你可以破解某些东西 - 或者可能在pypi上找到一些东西)但是为什么不使用wget。类似的东西:

wget -rkp -l3 -np -nH --cut-dirs=1 http://example.com

当然如果你真的想在python中这样做,你可以:

import subprocess
subprocess.call(['wget', '-rkp', '-l3', '-np', '-nH', '--cut-dirs=1', 'http://example.com'])

答案 2 :(得分:1)

如果你可以,而且你应该保留所有WordPress建模表,你可能想要使用一个名为Migrate的WordPress功能(也就是插件)...你可能拥有它,所以,如果你可以去你的管理面板( aka / wp-admin)你可以登录和使用 http://yourdomain.com/wp-admin/export.php 这样,您将获得一个可用于导入python项目的XML。还有一些插件可以导出完整的.sql文件

请记住,所有内容基本上都在MySQL表中,因此您需要的所有内容