有关以下自然语言处理条款的详细信息?

时间:2010-04-21 01:22:26

标签: nlp libraries text-processing

Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

是否有可用于执行NLP上述任何功能的库?

真的不想向AlchemyAPI捐出现金

2 个答案:

答案 0 :(得分:8)

实际上有很多免费提供的开源自然语言处理软件包。这是一个简短的列表,按工具包的实现语言组织:

如果您不确定要使用哪一个,我建议您从NLTK开始。该软件包相当容易使用,并且在线提供了很好的文档,包括a free book

您应该可以使用NLTK轻松完成您列出的NLP任务,例如: named entity recognition (NER)extracting tags for documentsdocument categorization

Alchemy人称之为structured data extraction的内容看起来只是HTML报废,只要页面仍以可视方式呈现相同的方式,就可以对基础HTML进行更改。所以,这不是一个真正的NLP任务。

要从HTML中提取文本,只需使用boilerpipe即可。它快速,好,免费。

答案 1 :(得分:1)

Apache UIMA项目最初由IBM创建,提供了与GATE非常相似的NLP框架。那里有各种为UIMA打造的注释器。