您好我想提取文档中术语的tf-idf值。经过一些搜索后,我在示例配置中找到了一个可以执行此操作的请求处理程序:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true
我想要做的是批量分析文档。这就是我的所作所为:
问题是插入一个带有commit = true的文档需要大约600毫秒,这对我的用例来说是不可接受的。
然后我找到http://wiki.apache.org/solr/RealTimeGet并尝试将其与termvector请求处理程序结合使用:<requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
<lst name="defaults">
<str name="df">text</str>
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
但是当我尝试查询处理程序时,我得到了这个作为响应:http://pastebin.com/KtB7DBSv我想将这两者结合起来是不可能的?
我怎样才能改善表现?有什么建议?是否有另一种获取tf idf值的方法?
答案 0 :(得分:0)
我没有找到问题中特定问题的解决方案,但发现使用softCommit = true要快得多。