facebook - Facebook如何预取网址/ Feed内容？ - Thinbug

Facebook如何预取网址/ Feed内容？

时间：2009-06-24 02:55:39

标签： facebook

我在Facebook消息中发布了一个博客文章的网址 http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ 和Facebook内联标题和缩写文本，好像它从rss feed中获取它们一样 http://www.autoblog.com/rss.xml 但是当我提交链接时，博客帖子已经从Feed中过期了 - 我查了一下。

看这个截图： http://i43.tinypic.com/nwbu4m.jpg

是否使用了feedburner搜索？怎么能这样做呢？

欢呼声

1 个答案:

答案 0 :(得分：3)

我认为他们会进行一些高级搜索，寻找最重要的数据块和HTML并使用它。基本上，他们会快速分析所有内容，丢弃广告等，并使用大量的数据。

Digg也在做类似的事情。

我会这样做来实现它。

扫描元标记，RSS Feed标记和标题标记。
查找包含大量内容的大型“区域”。还包括p标记。根据他们满足的可能性对他们进行加权或评分。查找关键字css课程/ ID（例如，比“广告”或“导航”
寻找大图片
存储有关该网站的信息以供将来使用和改进启发式

这一切都可能在服务器端完成，并使用AJAX提供给浏览器。