改进基于上下文的搜索

时间:2016-07-15 21:35:37

标签: java wordnet

我正在考虑使用WordNet对单个单词实施基于上下文的搜索的可能性。这个想法是这样的:

用户搜索病毒,它应该返回搜索到的单词的上下文/应用程序,在我们的例子中是健康和计算。用户现在选择上下文,现在根据所选上下文检索含义。我一直在检查使用WordNet的可能性,但似乎WordNet没有这种功能。我也看了字义消歧,然后它的句子不是一个字。我该如何实现这一目标?有没有能够实现这一目标的字典?关于其他工作的任何想法?

2 个答案:

答案 0 :(得分:1)

消歧是一个很大的计算问题。如果您愿意做一些相对简单的事情,我会指向BabelNetBabelfy

第一个是庞大的百科词典,第二个是BabelNet团队开发的消歧系统。

使用BabelNet,您可以获得关于“类别”这个词的几个元数据,它还有一个Java API。也许你可以用它来做点什么。

另外,我建议您尝试使用MeaningCloud

等多种文本分析软件

答案 1 :(得分:0)

我想出了如何实现这一目标,我得到了一个名为扩展wordnet域(XWN)http://adimen.si.ehu.es/web/XWND的项目。

据作者称,“这是一项旨在自动改进WordNet域名的正在进行的工作”,Wordnet域名是另一个与XWN目的相同但仅限于wordnet 2.0词典文件的项目。 XWN与Wordnet 3.0一起使用我已对其进行了测试,但我无法确定为单词选择合适域的标准。另一个问题是在内存中加载具有偏移量的域需要花费大量时间。这是因为每个域中的整个偏移量约为1900万。 XWN还包含大约180个域。每个域中都包含相同的单词,但权重不同。

例如,假设病毒在computer_science中的权重为0.00007899,在生物学中的权重为0.08766,在声学中的权重为7.9866,法律中的权重为4.97655。我还观察到权重是按升序排列的,每个域中的前几个单词与该域密切相关。所以我设法使用它但不太理想,因为我没有考虑选择域的标准,但是对于所有域都被选中并且只检索与搜索到的词相关的那些域的含义。

我希望这可以帮助某人,并且有人想出我所谈论的标准。但是现在我建议改进Wordnet Domain http://wndomains.fbk.eu,使其与作者使用的方向相同,即将一个单词与一个域匹配。