全部,我已成功将PDF
文件编入SOLR
Post.jar
索引。
当我尝试查询查询结果时,我可以看到该文件已编入索引。
但我想知道id
,stream_content_type
,pdf_pdfversion
等字段来自何处。我试图在schema.xml中搜索它们。但还没找到它们。他们在哪里定义?我错过了什么吗感谢。
答案 0 :(得分:0)
这是由Apache Tika
存储的元数据
除了Tika的元数据,Solr还添加了以下元数据
(在ExtractingMetadataConstants中定义):
https://wiki.apache.org/solr/ExtractingRequestHandler#Metadata 文档
元数据
正如迄今为止所暗示的那样,Tika制作了有关该元数据的元数据 文献。元数据通常包含文件作者之类的内容 或者页数等。生成的元数据取决于类型 提交的文件。例如,PDF具有不同的元数据 Word文档。
除了Tika的元数据,Solr还添加了以下元数据 (在ExtractingMetadataConstants中定义):
“stream_name” - 上传到Solr的ContentStream的名称。 根据文件的上载方式,可能会也可能不会设置。 “stream_source_info” - 有关流的任何源信息。看到 ContentStream。 “stream_size” - 以字节为单位的流大小(?) “stream_content_type” - 流的内容类型(如果可用)。 强烈建议您尝试使用仅提取选项 看看实际为这些设定了什么值。