可搜索的PDF文件(图像+文本PDF)验证

时间:2009-05-06 14:06:48

标签: validation pdf

如果我可以从PDF中的每个页面获取任何文本,我正在检查PDF文档是否可搜索。

但是,当我尝试从包含超过500~2000页的PDF中提取文本时,检查每个页面似乎都是永远的。

PDF是否可以包含一页的文本而不包含其他页面的文本? 我在这里要做的是,如果PDF的第一页包含文本,那么它是可搜索的PDF,而不是..

2 个答案:

答案 0 :(得分:2)

是的,PDF很可能在一个页面上包含文本而在其他页面上不包含文本。你很可能有一个500页的PDF,其中包含前499页的图像,但在最后一页上包含文字。

除非您想自己打开PDF文件并扫描文本/文本操作,否则您需要使用现有的第三方PDF库,它允许您从PDF中提取文本。

另外,请参阅Ferruccio对相关question的回复,即使用IFilter接口,专门用于搜索索引和文本提取。

答案 1 :(得分:0)

试用此版本的Searcharoo,可以搜索Word和PDF文档。

相关问题