从链接创建摘要

时间:2011-08-25 08:26:47

标签: web-scraping

许多网页(Facebook,Google +等)都有一个功能,可以创建包含标题,图片和链接中某些文字的摘要。我试图找出是否有任何关于如何执行此类功能的库或指南,但我的搜索结果根本没有帮助。

我知道我可以解析页面的html并提取我想要的元素但我认为应该有一些标准来完成这个(也许还有如何创建对这种友好的页面功能性。

任何有良好联系的人会指出我正确的方向吗? Javascript或.Net是我最喜欢的选择,但我也可以自己实现。

2 个答案:

答案 0 :(得分:1)

对于“也许还有如何创建对这种功能友好的页面。”部分:
您可能正在搜索open graph protocol

<html xmlns:og="http://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="movie" />
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>

我认为这是facebook看起来的第一个地方。但是,当这些标签丢失时,facebook似乎有自己的算法来检测页面中最相关的部分。

答案 1 :(得分:0)

  

许多页面(Facebook,谷歌+等)都有一个创建一个的功能   带有标题,图像和链接中的一些文本的摘要。我试过了   找出是否有任何关于如何执行此操作的库或指南   一种功能,但我的搜索结果根本没有帮助。

这样的功能通常使用某种“爬行”来构建,这意味着您的脚本会打开链接并查看其数据。就像你自己建议一样。

  

我知道我可以解析页面的html并提取元素   我想,但我认为应该有一些标准   这样做(也许还有如何创建对此友好的页面   功能性。

标准方式是大多数搜索引擎的方式,例如Google。您可以从网站标题获取标题,如果有,则从描述中获取描述。现在大多数搜索引擎都会忽略描述元数据,而是尝试制作自己的摘要。

通常通过查找标题(h1,h2等)和段落来完成。

为了使网站“友好”进行这类抓取,您可以根据网络标准(W3C)构建网站。

  

任何有良好联系的人都会指出我的权利   方向? Javascript或.Net是我的首选,但我可以   也是自己实现的。

语言真的无关紧要,只要它能够做一些基本的HTTP-GET。