通过URL获取WordPress博客内容-python

时间:2018-10-29 06:21:24

标签: wordpress beautifulsoup client screen-scraping xml-rpc

我一直在尝试从WordPress博客获取内容。我有每个帖子的URL,并尝试了“美丽汤”。但这似乎需要很多正则表达式,但仍然没有给我我需要的东西(只有内容,没有别的东西)。

所以我现在正在使用 wordpress_xmlrpc

from wordpress_xmlrpc import Client, WordPressPost
from wordpress_xmlrpc.methods.posts import GetPosts, NewPost
from wordpress_xmlrpc.methods.users import GetUserInfo
from wordpress_xmlrpc import WordPressPost

client = Client("https://sitename/xmlrpc.php", 'username', 'password')
all_posts = client.call(GetPosts({'number':50', 'post_status':'publish'}, results_class=WordPressPost))
print all_posts

这给了我已发布帖子的列表。如何获得内容而不仅仅是标题? (我确实有我的帖子的所有URL的列表)

1 个答案:

答案 0 :(得分:0)

好的,看起来这很简单。对于正在寻找此解决方案的任何人-首先收集帖子的ID,然后获取内容。

one_post=client.call(GetPost(all_posts[0].id))
print one_post.content

这有效,将其从文档中删除。