使用nokogiri剥离样式属性

时间:2011-05-23 11:03:43

标签: html nokogiri sanitize

我正在使用nokogiri删除一个html页面,我想删除所有样式属性 我怎样才能做到这一点? (我不使用rails,所以我不能使用它的清理方法,我不想使用sanitize gem'因为我想黑名单删除而不是白名单)

html = open(url)
doc = Nokogiri::HTML(html.read)
doc.css('.post').each do |post|
puts post.to_s
end

=> <p><span style="font-size: x-large">bla bla <a href="http://torrentfreak.com/netflix-is-killing-bittorrent-in-the-us-110427/">statistica</a> blabla</span></p>

我希望它是

=> <p><span>bla bla <a href="http://torrentfreak.com/netflix-is-killing-bittorrent-in-the-us-110427/">statistica</a> blabla</span></p>

3 个答案:

答案 0 :(得分:17)

require 'nokogiri'

html = '<p class="post"><span style="font-size: x-large">bla bla</span></p>'
doc = Nokogiri::HTML(html)
doc.xpath('//@style').remove
puts doc.css('.post')
#=> <p class="post"><span>bla bla</span></p>

已编辑,表明您只需拨打NodeSet#remove即可,而无需使用.each(&:remove)

请注意,如果你有一个DocumentFragment而不是Document,Nokogiri有a longstanding bug,从片段中搜索不会像你期望的那样工作。解决方法是使用:

doc.xpath('@style|.//@style').remove

答案 1 :(得分:8)

这适用于文档和文档片段:

doc = Nokogiri::HTML::DocumentFragment.parse(...)

doc = Nokogiri::HTML(...)

删除所有&#39;样式&#39;属性,你可以做一个

doc.css('*').remove_attr('style')

答案 2 :(得分:3)

我尝试了Phrogz的答案,但无法使其工作(虽然我使用的是文档片段,但我认为它应该可以正常工作吗?)。

&#34; //&#34;在开始时似乎没有像我期望的那样检查所有节点。最后我做了一些更长时间的啰嗦,但它确实有效,所以这里有记录以防万一其他人有同样的麻烦是我的解决方案(虽然它很脏):

doc = Nokogiri::HTML::Document.new
body_dom = doc.fragment( my_html )

# strip out any attributes we don't want
body_dom.xpath( './/*[@align]|*[@align]' ).each do |tag|
    tag.attributes["align"].remove
end