我在Rails中与Nokogiri有点奇怪的问题。我正在尝试删除带有“为什么”类的“p”标记。我有以下代码,但不起作用:
def test_grab
f = File.open("public/test.html")
@doc = Nokogiri::HTML.parse(f)
f.close
@doc = @doc.css("p")
@doc.each do |p|
if p["class"] == "why"
logger.info p.values
p.remove
end
end
end
的test.html:
<html>
<head>
<title>Test</title>
</head>
<body>
<p>Test data</p>
<p>More <a href="http://stackoverflow.com">Test Data</a></p>
<p class="why">Why is this still here?</p>
</body>
</html>
输出html来源:
<p>Test data</p>
<p>More <a href="http://stackoverflow.com">Test Data</a></p>
<p class="why">Why is this still here?</p>
我知道rails代码进入if循环,因为logger.info出现在服务器终端上。
有什么想法吗?
答案 0 :(得分:5)
您是否有任何理由重复使用@doc
实例变量?
在对这样的事情进行故障排除时,我发现最好的想法是尝试在没有Rails开销的情况下评估相同的代码。例如:
require 'nokogiri'
doc = Nokogiri::HTML(DATA)
doc.css("p").each do |p|
p.remove if p["class"] == "why"
end
__END__
<html>
<head>
<title>Test</title>
</head>
<body>
<p>Test data</p>
<p>More <a href="http://stackoverflow.com">Test Data</a></p>
<p class="why">Why is this still here?</p>
</body>
</html>
返回:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head><title>Test</title></head>
<body>
<p>Test data</p>
<p>More <a href="http://stackoverflow.com">Test Data</a></p>
</body>
</html>
现在尝试paragraphs = @doc.css("p")
然后paragraphs.each ..
或者只是省略整个作业。