阅读RSS源:聚合器做了什么,我不是

时间:2010-08-01 17:09:32

标签: python rss aggregator

我将以下Feed放入Google阅读器,并正常更新。

http://www.indeed.ca/rss?q=&l=Hamilton%2C+ON

然而,当我使用任何一种方法建议在'网上只需要从这个源读取并解析XML时,我收到相同的20个项目。

Google阅读器在做什么,我应该在我的代码中,以便收到新内容?

感谢您的建议。顺便说一句,我是用Python编写的。

2 个答案:

答案 0 :(得分:3)

RSS聚合器“轮询”来源,即他们在每个来源上定期重复HTTP查询,并检查结果中是否出现任何新内容。这是不幸的,因为轮询总是如此,因为它浪费了一系列无休止的资源“我们还在吗?”问题(有点像在长途驾驶中带小孩;-), 然而意味着延误(如果你每小时轮询一个给定的来源,比如说,你会等待一个小时到看到一些结果)。

不幸的是,在RSS体系结构本身,没有其他选择,当出现新内容或选择更健全的“发布 - 订阅体系结构”时,没有办法要求“回调”。

正在努力解决这个问题pubsubhubbub,但它不可避免地需要来自RSS源和聚合器的合作(超出RSS标准) - 所以它需要非常广泛的采用才能被称为“解决方案” “但问题是,从技术上讲,它已经是(对于合作网站; - )。

回到你的问题,你没有做错任何事情:你只需要像RSS聚合器那样定期轮询,以便最终看到新的结果。

答案 1 :(得分:0)

1)您是否尝试过其他RSS源?

2)如果是这样,它听起来像某种缓存...你是否支持某些代理?