生成与单词相关的单词

时间:2013-09-23 11:34:18

标签: nlp keyword-search

我的问题很简单,我花了几个小时在网上搜索为主题/单词生成关键字的现有方法。 例如,如果我的输入是:

面向对象编程

我希望我的输出符合以下几行:

类,对象,友元函数,静态变量等

我目前对解决方案的想法是谷歌我有兴趣生成关键词的特定主题,抓取第一个x(多个)结果页面,删除所有标签并停止它们的单词,将每个单词传递给Python nltk lemmatizer得到它的基本形式所以我不计算多次意味着基本相同的词(“表演”和“表演者”都将成为“表演”),然后计算每个单词的出现次数,并抓住顶部x%是我搜索主题中最相关的单词。

这个问题的第一个问题是,它不会生成任何短语,因为它会单独处理每个单词,第二个问题是必须在此字段中已经完成某些事情,并且我在研究期间得出的结果是:上下文向量(看起来非常类似于我想要的但实际上它们并不是......我认为......:p)第二件事是Porter词干分析器算法,但后来我意识到词法化对我的事业来说要好得多......我还为网站增加了大量的“关键字生成器”以增加流量,但我非常怀疑我可以使用其中任何一种用于我想要做的事情。

如果有人能指出我对算法或现有研究的方向,或任何事情,我真的很感激:)

1 个答案:

答案 0 :(得分:1)

您要找的是focused crawler。看看BootCat。 BootCat将关键字提取为n-gram,但您可以使用自己的算法从网页中提取关键字(而不是将以空格分隔的字符串提取为单词)。您还可以使用某些库或REST API进行关键字提取,这将为您提取多字关键字。 Here,在“外部链接”部分中,您可以找到一些关键字提取器的列表。

相关问题