feedparser缺少条目描述,包括幻像条目摘要? python3

时间:2018-02-16 02:20:44

标签: python-3.x feedparser

使用feedparser读取rss提要,例如业务内幕人员在此网址:

businessinsider.com/rss

python3中的

feedparser似乎正确处理了rss feed中每个条目的一些属性,“转换”其他条目,并忽略/删除其他条目。我没有最微妙的想法。

  1. 似乎正确处理: 标题(有道理) 链接(有道理) ......还要妥善处理其他一些有意义的attr,即“在饲料中”。好的,很棒...

  2. 但它完全缺失: 描述 ...有没有理由忽略/删除/隐藏Feed中的attr?为什么呢?

  3. 然后它将'phantom'字段填充为以下属性: '摘要', 'summary_detail', ...和别的。它是否正在从Feed中的描述到幕后某些合成摘要字段进行某种转换?有没有理由隐藏/删除/忽略/错误描述?

  4. 我试过阅读文档但无法找到解释。是否是某种设置或参数我传递给feedparser,或者它作为一个功能自动执行,或者......我很困惑

    感谢

1 个答案:

答案 0 :(得分:0)

我认为feedparser文档确实找到了我的问题的答案。在这个页面:

https://pythonhosted.org/feedparser/reference-entry-summary.html

它说:

entries [i] summary 

Comes from

/atom10:feed/atom10:entry/atom10:summary
/atom03:feed/atom03:entry/atom03:summary
/rss/channel/item/description
/rss/channel/item/dc:description
/rdf:RDF/rdf:item/rdf:description
/rdf:RDF/rdf:item/dc:description

所以我猜这就是全部。在我发布的Feed中,summary属性确实是rss / channel / item / description字段。

现在我必须阅读有关消毒的内容,bc我会认为它只是通过文本而不是html,一旦feedparser消化它......但这是一个单独的问题,我想...... / p>