提取picasaweb专辑名称

时间:2011-05-14 09:27:12

标签: bash screen-scraping

我只想获得专辑名称。这是一个示例页面:

http://picasaweb.google.com/sunnchoi

但是当我想要它并为一个标题模式grep时,我得到100个结果。我知道我必须模仿点击“显示更多相册”链接。我该怎么做(使用bash utils / perl)?

2 个答案:

答案 0 :(得分:0)

尝试Picases Web Album API

他们有Python / Java和其他语言的例子。这是request a list of albums(这个使用python)。

答案 1 :(得分:0)

如果您有xmlstarlet可用,您可以直接解析给定网站的相应RSS URL:

xmlstarlet sel --net -T -t -m '//item' -v 'title' -n \
'http://picasaweb.google.com/data/feed/base/user/sunnchoi?alt=rss&kind=album&hl=en_US&access=public' | 
nl