从文件夹中提取所有URL

时间:2013-04-08 07:14:36

标签: ruby url directory

我想使用ruby从文件夹中提取所有网址,但我不知道有人帮助我。我在谷歌上扩展了很多时间,但我找不到任何建议

THX

2 个答案:

答案 0 :(得分:1)

Ruby的URI类可以扫描文档并返回所有URL。查看extract方法。

使用Dir::glob在使用Dir::entriesreadsFile.read每个文件的扫描目录的循环中包裹它。

如果您愿意,可以使用Nokogiri编写一个基于解析器的快速扫描程序,但它可能会有相同的结果。 URI的方法更容易。

答案 1 :(得分:0)

您可以使用Nokogiri来解析和搜索HTML文档。

> require 'nokogiri'
> require 'open-uri'
> doc = Nokogiri::HTML(open("http://www.example.com"))
> doc.css("a").map{|node| node.attr("href")}
 => ["http://www.iana.org/domains/special"]