Solr的数据导入请求处理程序用于更新索引

时间:2013-07-22 13:00:00

标签: solr dataimporthandler dih

我想将Dbpedia数据集索引到SOLR中。

  1. 我的架构是:schema.xml
  2. 我的DIH配置为:data-config.xml
  3. 一切都很好,但我希望所有“类型”都不是最后一个“类型”。 有没有办法用DIH更新Solr?我不是指Delta-import

    更多解释:

    <field column="rawLine" 
          regex="THE SAMPLE REGEX"
          groupNames="uri,types,prettyTypes" />
    

    以上配置得到每一行,然后用该正则表达式处理,最后(uri,types,prettyTypes)填充适当的数据。但是例如对于“Alabama”,我们在Dbpedia的数据集中有6行:

    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/AdministrativeRegion> .
    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/AdministrativeArea> .
    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/PopulatedPlace> .
    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Place> .
    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Place> .
    <http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2002/07/owl#Thing> . 
    

    现在用DIH处理这6行之后,只有1个带有(Alabama,owl#Thing)数据的文档,其他5个类型将被删除。

0 个答案:

没有答案