无法删除Nokogiri中的节点

时间:2010-12-03 10:07:41

标签: ruby-on-rails nokogiri

我在Rails中与Nokogiri有点奇怪的问题。我正在尝试删除带有“为什么”类的“p”标记。我有以下代码,但不起作用:

def test_grab
  f = File.open("public/test.html")
  @doc = Nokogiri::HTML.parse(f)
  f.close
  @doc = @doc.css("p")
  @doc.each do |p|
    if p["class"] == "why"
      logger.info p.values
      p.remove
    end
  end
end

的test.html:

<html>
<head>
    <title>Test</title>
</head>
<body>
    <p>Test data</p>
    <p>More <a href="http://stackoverflow.com">Test Data</a></p>
    <p class="why">Why is this still here?</p>
</body>
</html>

输出html来源:

<p>Test data</p>
<p>More <a href="http://stackoverflow.com">Test Data</a></p>
<p class="why">Why is this still here?</p>

我知道rails代码进入if循环,因为logger.info出现在服务器终端上。

有什么想法吗?

1 个答案:

答案 0 :(得分:5)

您是否有任何理由重复使用@doc实例变量?

在对这样的事情进行故障排除时,我发现最好的想法是尝试在没有Rails开销的情况下评估相同的代码。例如:

require 'nokogiri'

doc = Nokogiri::HTML(DATA)
doc.css("p").each do |p|
  p.remove if p["class"] == "why" 
end

__END__
<html>
<head>
    <title>Test</title>
</head>
<body>
    <p>Test data</p>
    <p>More <a href="http://stackoverflow.com">Test Data</a></p>
    <p class="why">Why is this still here?</p>
</body>
</html>

返回:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head><title>Test</title></head>
<body>
    <p>Test data</p>
    <p>More <a href="http://stackoverflow.com">Test Data</a></p>

</body>
</html>

现在尝试paragraphs = @doc.css("p")然后paragraphs.each ..或者只是省略整个作业。