Question

许多网页（Facebook，Google +等）都有一个功能，可以创建包含标题，图片和链接中某些文字的摘要。我试图找出是否有任何关于如何执行此类功能的库或指南，但我的搜索结果根本没有帮助。

我知道我可以解析页面的html并提取我想要的元素但我认为应该有一些标准来完成这个（也许还有如何创建对这种友好的页面功能性。

任何有良好联系的人会指出我正确的方向吗？ Javascript或.Net是我最喜欢的选择，但我也可以自己实现。

Answer 1

对于“也许还有如何创建对这种功能友好的页面。”部分：
您可能正在搜索open graph protocol：

<html xmlns:og="http://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="movie" />
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>

我认为这是facebook看起来的第一个地方。但是，当这些标签丢失时，facebook似乎有自己的算法来检测页面中最相关的部分。

Answer 2

许多页面（Facebook，谷歌+等）都有一个创建一个的功能带有标题，图像和链接中的一些文本的摘要。我试过了找出是否有任何关于如何执行此操作的库或指南一种功能，但我的搜索结果根本没有帮助。

这样的功能通常使用某种“爬行”来构建，这意味着您的脚本会打开链接并查看其数据。就像你自己建议一样。

我知道我可以解析页面的html并提取元素我想，但我认为应该有一些标准这样做（也许还有如何创建对此友好的页面功能性。

标准方式是大多数搜索引擎的方式，例如Google。您可以从网站标题获取标题，如果有，则从描述中获取描述。现在大多数搜索引擎都会忽略描述元数据，而是尝试制作自己的摘要。

通常通过查找标题（h1，h2等）和段落来完成。

为了使网站“友好”进行这类抓取，您可以根据网络标准（W3C）构建网站。

任何有良好联系的人都会指出我的权利方向？ Javascript或.Net是我的首选，但我可以也是自己实现的。

语言真的无关紧要，只要它能够做一些基本的HTTP-GET。

从链接创建摘要

2 个答案: