如何将这个hpricot代码翻译成nokogiri?

时间:2010-04-16 01:50:32

标签: nokogiri hpricot

 Hpricot(html).inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

hpricot = Hpricot(html)
hpricot.search("script").remove
hpricot.search("link").remove
hpricot.search("meta").remove
hpricot.search("style").remove

http://www.savedmyday.com/2008/04/25/how-to-extract-text-from-html-using-rubyhpricot/

上找到了它

1 个答案:

答案 0 :(得分:0)

Nokogiri和Hpricot相当可以互换。即Nokogiri(html)相当于Hpricot(html)。我不确定我理解链接文章试图实现的目标,但是要:

  

从HTML正文中提取文本,其中包括忽略标记和单词之间的大的空格。

这在Hpricot中是一种更简单的方法,并且不需要hpricot.search("script").remove位。即首先得到身体:

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

在Nokogiri:

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")
相关问题