飞针非布尔搜索查询

时间:2012-04-24 20:19:20

标签: python search information-retrieval whoosh tf-idf

我正在建立一个问答系统,为了加快这个过程,我想要一个IR系统从一个语料库中返回一组文件,这些文档可能会回答这个问题(我的NLP算法会试图弄清楚从那些全文回答。

由于我使用的是Python,Whoosh似乎是一个不错的选择,但我在搜索除纯布尔查询之外的方法时遇到了困难,这些问题不适用于问答。我喜欢类似于与字符串查询具有高TF-IDF相似性的文档列表。

我想输入:

  

“谁是美国总统?”

并获取最相似的文档,但我只是删除了停用词:

  

“总统或联合或国家”

准确性不适用于质量保证流程。任何人都可以指向一些方法或高级API方法以非布尔方式获取顶级文档?我愿意尝试其他库,但大多数用Python快速接口似乎很复杂,我希望能有一些非常简单的东西,所以我可以继续专注于自然语言组件。

0 个答案:

没有答案