HTML解析:如何查找文档中的图像,该图像被大多数文本包围?

时间:2012-10-02 13:37:41

标签: ruby-on-rails xpath html-parsing nokogiri mechanize

我正在编写一个新闻报道器,它必须确定主图像(缩略图),给出一篇新闻文章的HTML文档。

换句话说,它基本上是同一个挑战:How does Facebook determine which images to show as thumbnails when posting a link?

有许多有用的技术(更喜欢更高的尺寸,更小的比例等),但有时在解析网页后,程序最终会得到一个相似大小的图像列表(其中一半是广告),它需要选择只有一个,它说明了文档中描述的故事。

在视觉上,当您打开a random news article时,主图片几乎总是位于顶部并被文本包围。如何实现HTML解析器(例如,使用xpath / nokogiri),它会找到这样的图像?

2 个答案:

答案 0 :(得分:1)

除非您已经预先了解了网站的布局,否则没有好的方法可以从代码中确定这一点。

HTML和DHTML允许您使用CSS或JavaScript在页面上定位元素,并且可以在页面加载后执行此操作,这是Nokogiri无法访问的。

可能能够在页面完全加载后使用其中一个Watir API执行此操作,但是,您再次确实需要知道网站使用的布局。广告可以位于HTML流中的任何位置,并在加载后在页面中移动,并且可以动态加载实际内容,并且可以动态更改其位置和大小。因此,您不能指望HTML中内容的位置是重要的,也不能指望HTML中的内容。 JavaScript或CSS不是你的朋友。

当我为网站分析编写蜘蛛和抓取工具时,我不得不处理同样的问题。因为我知道我要查看哪些网站,所以我会做一个快速预扫描并找到我的地标标签,然后为那些写一些CSS或XPath访问器。将URL保存在数据库中,您可以快速浏览页面,准确抓取您想要的内容。

如果不了解页面布局,您的代码完全受页面布局人员的支配,以及修改页面元素位置的任何内容。

基本上,您需要在代码中实现大脑内部的湿软件,以及以图形方式呈现页面的能力,以便您的代码可以对其进行分析。当您作为用户在浏览器中查看页面时,您正在使用视觉和上下文线索来查找重要内容。所有上下文信息都是缺少的,以及您需要编写的内容。

答案 1 :(得分:0)

如果我理解正确,那么解析页面的问题就更少了,但是实现了一个成功决定选择哪个图像的逻辑。

我认为第一步是决定哪些图像是新闻图像,哪些图像不是(例如广告)。

您可以通过读取图像URL(图像标记的src-attibute)并检查主机对文章主机的中间部分(在您的示例中为“nytimes”)应该是相同的。

第二步是决定哪一个是最重要的一个。为此,您可以使用文章中的图像大小,页面上的位置等。对于第2步,您必须尝试对大多数网站最有效的方法。调整你的算法,直到它为大多数新闻网站产生最好的结果。

希望这有帮助

相关问题