在PDF / Reader gem上,如何处理目录中的所有PDF文件

时间:2015-12-06 21:32:57

标签: ruby regex parsing pdf

我写了这个脚本,允许我解析PDF文件

require 'rubygems'
require 'pdf/reader'
reader = PDF::Reader.new("file.pdf")
reader.pages.each do |page|
zmer= page.text
puts zmer.scan(/TEXT1[\s\S]*TEST2/)
end

事情是,我想对同一目录下的所有文件做同样的事情(当前代码适用于一个PDF)

谢谢

1 个答案:

答案 0 :(得分:0)

我认为您正在寻找的只是Directory globbing,可以这样做来查找当前目录中的文件:

Dir['*.pdf'].each do |filename|
  puts "Processing #{filename}..."
end

因此,对于您的特定代码:

require 'rubygems'
require 'pdf/reader'
Dir['*.pdf'].each do |filename|
  reader = PDF::Reader.new(filename)
  reader.pages.each do |page|
    zmer = page.text
    puts zmer.scan(/TEXT1[\s\S]*TEST2/)
  end
end

有关更多示例,请参阅:http://ruby.about.com/od/beginningruby/a/dir2.htm