从给定文本生成关键字的最佳方法是什么?

时间:2010-12-26 22:25:22

标签: algorithm nlp seo

我想为我的CMS生成关键字。

有人知道生成关键字的好PHP脚本(或其他内容)吗?

我有一个这样的HTML网站:http://pastebin.com/ZU8vdyeP

3 个答案:

答案 0 :(得分:2)

这对于计算机来说是一个非常难以解决的问题。让某人(否则?)手动完成它或者根本不完全这样做会容易得多。

如果你真的需要一台计算机来做这件事,我会前往优秀的 Python库NLTK ,它有很多这类工具(=自然语言)加工),使用起来很有趣。

例如,您可以计算单词的频率分布,然后搜索最常出现的较大(上面说5个字符)单词的最常见上位词,并将其用作关键字可能的提示。

然而,再一次,人类完成任务要容易得多。

答案 1 :(得分:1)

自动化,从文章中获取单词,将它们与黑名单相匹配,不要包含4个字符以下的单词。

此外,让用户手动编辑。因此,如果没有现有关键字,则只会自动生成。

这可以通过触发器或应用层来完成。

的问候, /吨

答案 2 :(得分:1)

如果我理解了这个问题,您就会有文字,并且您想要确定与文本最相关的关键字。

三种方法:

1)让用户输入关键字

2)文本的统计分析,例如,确定文本中比在整体语言中更常见的单词。信息检索上的任何好文本都会有一些算法。

3)如果您有一组已经分类的文档(可能以前由人类分类),那么您可以使用机器学习算法(可能是贝叶斯分类器)来训练系统对新文档进行分类。如果您让用户覆盖/更正建议的关键字,系统可以随时了解。

就个人而言,我会做#3,因为它更具适应性。