solr - SOLR中PDF索引的模式定义在哪里

这是由Apache Tika存储的元数据除了Tika的元数据，Solr还添加了以下元数据（在ExtractingMetadataConstants中定义）：

https://wiki.apache.org/solr/ExtractingRequestHandler#Metadata 文档

元数据

正如迄今为止所暗示的那样，Tika制作了有关该元数据的元数据   文献。元数据通常包含文件作者之类的内容   或者页数等。生成的元数据取决于类型   提交的文件。例如，PDF具有不同的元数据   Word文档。

除了Tika的元数据，Solr还添加了以下元数据   （在ExtractingMetadataConstants中定义）：

“stream_name” - 上传到Solr的ContentStream的名称。   根据文件的上载方式，可能会也可能不会设置。   “stream_source_info” - 有关流的任何源信息。看到   ContentStream。 “stream_size” - 以字节为单位的流大小（？）   “stream_content_type” - 流的内容类型（如果可用）。   强烈建议您尝试使用仅提取选项   看看实际为这些设定了什么值。

SOLR中PDF索引的模式定义在哪里

1 个答案: