SOLR中PDF索引的模式定义在哪里

时间:2015-12-13 04:21:03

标签: solr

全部,我已成功将PDF文件编入SOLR Post.jar索引。 当我尝试查询查询结果时,我可以看到该文件已编入索引。

enter image description here

enter image description here

但我想知道idstream_content_typepdf_pdfversion等字段来自何处。我试图在schema.xml中搜索它们。但还没找到它们。他们在哪里定义?我错过了什么吗感谢。

1 个答案:

答案 0 :(得分:0)

这是由Apache Tika存储的元数据 除了Tika的元数据,Solr还添加了以下元数据 (在ExtractingMetadataConstants中定义):

https://wiki.apache.org/solr/ExtractingRequestHandler#Metadata 文档

  

元数据

     

正如迄今为止所暗示的那样,Tika制作了有关该元数据的元数据   文献。元数据通常包含文件作者之类的内容   或者页数等。生成的元数据取决于类型   提交的文件。例如,PDF具有不同的元数据   Word文档。

     

除了Tika的元数据,Solr还添加了以下元数据   (在ExtractingMetadataConstants中定义):

     

“stream_name” - 上传到Solr的ContentStream的名称。   根据文件的上载方式,可能会也可能不会设置。   “stream_source_info” - 有关流的任何源信息。看到   ContentStream。 “stream_size” - 以字节为单位的流大小(?)   “stream_content_type” - 流的内容类型(如果可用)。   强烈建议您尝试使用仅提取选项   看看实际为这些设定了什么值。