两组令牌之间的相似度得分

时间:2014-04-08 19:09:08

标签: python machine-learning

我为一个人检索了一组网址。我想尝试将每个网址分类为关于该人(他/她的linkedin个人资料或博客或提及此人的新闻文章)或不关于该人。

我正在尝试应用一种基本方法,我会对每个网页进行标记并与其他网页进行比较,以查看每个文档之间有多少相似的单词(不包括停用词),然后将最相似的网页作为正面匹配。

我想知道是否有一种机器学习方法,我可以采用这种方法,这将使我的任务更容易,更准确。基本上我想比较两个网页之间的网页内容(标记为单词),并根据内容确定它们的相似程度。

1 个答案:

答案 0 :(得分:0)

如果您熟悉python,这个NLP分类器可以帮助您: http://www.nltk.org/api/nltk.classify.html#module-nltk.classify

对于无监督的群集,您可以使用: http://www.nltk.org/api/nltk.cluster.html#module-nltk.cluster

如果您只是在寻找相似性分数,那么度量模块应该是有用的: http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics

NLP-toolkit有答案,只需浏览模块即可找到你想要的东西,而不是手工实现。