删除HTML类之前和之后的所有内容

时间:2013-03-24 12:53:12

标签: html ruby nokogiri

我在一个文件中有页面源,但是我只需要一小部分页面,它包含在这个类中:

<td class="left">
<a href="hiscorepersonal.ws?user1=xMorgan">xMorgan</a>
<br><a href="hiscorepersonal.ws?user1=unik4kosova">unik4kosova</a>
<br><a href="hiscorepersonal.ws?user1=MiscDemeanor">MiscDemeanor</a>
<br>
</td>

据我所知,没有简单的方法可以做到这一点,因为它不包含在元素中。这还有可能吗?

1 个答案:

答案 0 :(得分:1)

给定输入的预期输出是多少?如下所示:

"\nxMorgan\nunik4kosova\nMiscDemeanor\n"

如果这是你想要的,你可以写:

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('url-of-the-page-you-want-to-save'))
puts doc.css('td.left').text

如果这不是您想要的,请提供足够的HTML样本和所需的输出。