我如何挖掘各种新闻来源的数据?

时间:2009-07-14 18:27:18

标签: c# web-scraping rss data-mining feed

我正在开发一个免费的网络应用程序,它将全天分析热门新闻报道并提供统计数据。大多数新闻网站都提供RSS源,可以很好地了解要检索的故事。然而,当试图从新闻网站本身获得完整的新闻报道时出现问题。目前,我为每个来源(CNN,纽约时报等)提供单独的 NewsSource 类,这些类读取相应的RSS提要,跟随每个链接,并剥离正文。当新闻网站决定改变其文章的HTML结构时,这似乎很乏味且非常难以管理。

是否有一项服务(最好是免费的)已经使用完整文章内容(不只是摘要)聚合了多个新闻来源?如果没有,您是否有任何建议来处理具有不同HTML结构的多个来源,这些来源可能会更改,恕不另行通知?

1 个答案:

答案 0 :(得分:0)

使用readability。搜索您使用的语言的可读性端口。