使用solr批量分析文档(提取tf idf信息)

时间:2013-03-13 14:08:14

标签: solr

您好我想提取文档中术语的tf-idf值。经过一些搜索后,我在示例配置中找到了一个可以执行此操作的请求处理程序:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true

我想要做的是批量分析文档。这就是我的所作所为:

  1. 使用commit = true
  2. 将新文档发送到solr更新处理程序
  3. 使用上述url
  4. 查询术语向量的solr

    问题是插入一个带有commit = true的文档需要大约600毫秒,这对我的用例来说是不可接受的。

    然后我找到http://wiki.apache.org/solr/RealTimeGet并尝试将其与termvector请求处理程序结合使用:

    <requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
        <lst name="defaults">
          <str name="df">text</str>
          <bool name="tv">true</bool>
        </lst>
        <arr name="last-components">
          <str>tvComponent</str>
        </arr>
      </requestHandler>
    

    但是当我尝试查询处理程序时,我得到了这个作为响应:http://pastebin.com/KtB7DBSv我想将这两者结合起来是不可能的?

    我怎样才能改善表现?有什么建议?是否有另一种获取tf idf值的方法?

1 个答案:

答案 0 :(得分:0)

我没有找到问题中特定问题的解决方案,但发现使用softCommit = true要快得多。