我想基于用户键入的关键字/短语执行内容搜索,并返回包含这些关键字/短语的条目。 我想要执行搜索的文档作为二进制数据存储在postgressql中。
答案 0 :(得分:1)
第一步是从二进制文件中获取可读文本。用于从各种文件类型中读取文本的好库是Apache TIKA。
从文档中获取可读文本后,您需要将此文本存储在PostgreSQL中,并对原始二进制文档进行一些引用,并使用PostgreSQL的全文搜索功能进行搜索:{{ 3}}
数据库搜索功能的替代方法类似于https://www.postgresql.org/docs/9.6/static/textsearch.html。到目前为止,我已经使用Apache Lucene获得了非常酷的结果。