Python-Apache Tika单页解析器

时间:2018-11-01 00:05:50

标签: python apache-tika tika-server

我想知道是否可以使用Tika / Python仅解析第一页或仅从第一页提取元数据?现在,当我通过pdf时,它正在解析每个页面。 我看了一下这个链接:Is it possible to extract text by page for word/pdf files using Apache Tika? 但是,此链接在Java中提供了更多信息,我对此并不熟悉。我希望可以有一个python解决方案吗?谢谢!

from tika import parser
# running: java -jar tika-server1.18.jar before executing code below. 
parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf')

fulltext = parsedPDF['content']

metadata_dict = parsedPDF['metadata']
title = metadata_dict['title']
author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page 
pages = metadata_dict['xmpTPg:NPages']

2 个答案:

答案 0 :(得分:3)

非常感谢您提供此信息。这是我的代码,用于逐页检索内容(有点脏,但是可以):

    raw_xml = parser.from_file(file, xmlContent=True)
    body = raw_xml['content'].split('<body>')[1].split('</body>')[0]
    body_without_tag = body.replace("<p>", "").replace("</p>", "").replace("<div>", "").replace("</div>","").replace("<p />","")
    text_pages = body_without_tag.split("""<div class="page">""")[1:]
    num_pages = len(text_pages)
    if num_pages==int(raw_xml['metadata']['xmpTPg:NPages']) : #check if it worked correctly
         return text_pages

答案 1 :(得分:1)

@Gagravarr关于XHTML的评论,我发现Tika在读取文件时进行了xmlContent解析。我用它来捕获xml格式,并用正则表达式来捕获它。

这对我有用:

parsed_data_full = parser.from_file(file_name,xmlContent=True) 
parsed_data_full = parsed_data_full['content']

每个页面分隔符都有一个起点和终点,以"<div"开头,以"</div>"第一次出现结尾。基本上写了一个小代码来捕获2个子字符串之间的子字符串,并将其存储到我特定要求的变量中。

相关问题