从各种来源汇总

时间:2010-09-10 13:55:47

标签: rss yahoo-pipes aggregators

这可能是一个远远超出我的技能的项目,但我已经花了整整一个月的时间花在它上面,所以我想我能做到。我想要建立的是:从各种来源收集有关特定主题的新闻。容易,对吗?只需获取RSS源并在页面上显示它们。好吧,我想要一些更先进的东西:重复删除和自定义演示(即,能够定义/更改新闻标题显示的格式)。

我使用了Yahoo Pipes和其他一些工具,我遇到了两个大问题:

  1. 某些来源不提供RSS Feed。我该如何创建一个?
  2. 查找和删除重复项的最佳方法是什么。我想过比较标题并检查是否有比50%更大的匹配。这是一个很好的做法吗?
  3. 请添加我可能没有考虑过的任何其他事情(问题,建议等等)。

2 个答案:

答案 0 :(得分:1)

重复是一个令人讨厌的问题。我最终做了什么:

  • 1。删除除链接之外的所有HTML标记(虽然我开始使用正则表达式,但我被刻录了。我最终转移到自定义解析以删除标记)
  • 2。删除所有空格
  • 3。病例脱敏
  • 4。用MD5哈哈哈哈。

这就是你留下链接的原因: 评论可能就像“是的,这很糟糕”一样简单。 “是的,这很糟糕”可能是一个常见的评论。但是如果文本“这很糟糕”与不同的东西相关联,那么它不是重复的评论。

此外,您会发现使用RSS提要时,HTML标记转义很奇怪。你会认为一个流浪的<会被双重编码:(我认为)&&lt ;; 但事实并非如此。它被编码< 但HTML标签也是如此!

:其中p为H. 我最终将所有已知的HTML标签复制为Mozilla Firefox解析并手动识别这些标签。

从HTML创建RSS源非常讨厌,我只能指向Spinn3r等服务,这些服务在重复数据删除和内容提取方面非常出色。这些服务通常使用高于我的基于概率的算法。我知道有一家提供商可以使用regexing页面(他们必须知道某个页面是基于MySpace或基于Blogger的)但是它们的表现并不令人钦佩。

答案 1 :(得分:0)

您可能想尝试使用YQL module来抓取不提供RSS的网页。用于抓取HTML的YQL语句的Here's a sample

关于重复项,请查看this pipe

自定义演示文稿:如果您想要真正自定义,您必须自己操纵管道结果,例如:将它作为JSON使用Javascript操作它,或者在服务器端处理它。