我有一个word文档。我需要使用GATE匹配它的特定表部分或标题部分。我想如果有任何步骤,我们可以先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到下一个标题模式重复。
答案 0 :(得分:2)
GATE 对 Apache Tika 和 Apache POI 库提供的 MS Word 文档的支持有限。我不知道任何免费替代方案......我们已经在我的公司为此目的开发了我们自己的插件(gate.DocumentFormat
),但现在它不适用于外部。
您可以尝试通过其他工具将转换您的Word文档转换为HTML (例如直接使用MS Word,OpenOffice, docx4j 或其他人 - 尝试谷歌docx to html
- 你会看到很多结果),然后在GATE中处理HTML文档。您将在Original markups
注释集中看到所有格式。