Java的自然语言处理和关键字查找

时间:2018-11-07 17:38:47

标签: java nlp

假设我们有一个论坛,用户可以在其中创建主题并讨论问题。为了我的利益,该论坛是认真的,不包含交换非法物品或组织非法会议,例如毒品交易或儿童色情制品。我的应用程序是用Java编写的,是否有一个Framework或WebApi可以找到并识别用户编写的内容的单词或语义,以检查是否存在非法行为?

1 个答案:

答案 0 :(得分:1)

通常会有一些可以使用的单词黑名单。

如果要对其应用NLP,则可以将Apache OpenNLP用于基本的NLP任务,例如令牌化和POS检测。

在POS标记中,您可能可以基于黑名单应用文字过滤器。但是,您必须处理语和同义词。

对于S语/同义词部分,您可以使用Conceptnet,其中有一个基于Wikipedia的WebAPI。以Conceptnet中的link for "marijuana"link for "child pornography"为例,您可以在平台中搜索输入术语的关系,以查看是否存在“非法毒品”或“儿童色情制品”的链接。然后否定它们,

实际上,我宁愿将您的问题归类为NLU问题(它必须处理对文本的理解,而不仅仅是文本的表示)。