如何在数据库中存储为二进制数据的文件上进行索引?

时间:2016-10-08 10:24:05

标签: java postgresql lucene

我想基于用户键入的关键字/短语执行内容搜索,并返回包含这些关键字/短语的条目。 我想要执行搜索的文档作为二进制数据存储在postgressql中。

1 个答案:

答案 0 :(得分:1)

第一步是从二进制文件中获取可读文本。用于从各种文件类型中读取文本的好库是Apache TIKA

从文档中获取可读文本后,您需要将此文本存储在PostgreSQL中,并对原始二进制文档进行一些引用,并使用PostgreSQL的全文搜索功能进行搜索:{{ 3}}

数据库搜索功能的替代方法类似于https://www.postgresql.org/docs/9.6/static/textsearch.html。到目前为止,我已经使用Apache Lucene获得了非常酷的结果。