单数/复数搜索和词干

时间:2008-10-01 13:16:01

标签: search stemming

我正在为单数复数关键字搜索找到一个简单的解决方案。我听说过干预,但我不想使用它的所有功能,只有复数/奇异变换。语言是荷兰语。之前看过http://www.snowball.tartarus.org。有没有人知道单数|复数相关搜索的简单解决方案? 提前谢谢。

3 个答案:

答案 0 :(得分:2)

使用字典,停用词列表(您不想单词化)以及语言规则。如果您不认识荷兰语,那么我无法帮助您,但会告诉您如何用西班牙语完成,例如:

  • 复数以s结尾,如果没有,则完成
    • 如果以s结尾,
      • 检查它是否是以s结尾的动词或共轭,如果是1,则完成(动词可以添加到停用词列表中)
      • 如果它不是动词,请删除s
      • 如果单词存在于词典中,则完成
      • 如果它没有删除上一个字母,请在字典中查看。
      • 如果它仍然不在那里它是一个例外,你需要手动检查异常中的代码(我现在不能想到任何,但它们总是存在:)

当然,这不会直接转化为荷兰语。

一般来说,提取器已经完成并提供了你需要的大部分内容,你为什么不想要它们呢?

答案 1 :(得分:1)

Stemmers引起了很多用户的烦恼,因此如果我使用其中一个,则应禁用除单数/复数之外的所有功能。所以要求只使用复数/单数变换。

答案 2 :(得分:1)

答案是正确的,但值得一提的是荷兰语有大量不规则动词。与一组单一规则相比,这会产生更多的表查找问题。

您需要访问语料库,您可以在此处找到荷兰语语言库:http://corpus1.mpi.nl/ds/imdi_browser/