java - 如何最好地检测非荒谬的文本？ - Thinbug

如何最好地检测非荒谬的文本？

时间：2014-06-25 16:47:42

标签： java nlp text-mining

我的用例是我有传入的文件。一些具有描述性文件名，而另一些具有文件名的数字和/或字母的集合。

我很想知道，什么是检测文件名何时不是英文单词的合适方法？

是否有任何可以执行此类任务的文本挖掘范例？

由于

2 个答案:

答案 0 :(得分：0)

你需要查找一个英文单词表，并在用表格检查传入的单词时。对于这棵树你可以使用它：

https://code.google.com/p/word2vec/

你只需要使用那里的单词表。表中的任何内容都是有效的单词。

答案 1 :(得分：0)

您需要使用可能的单词（使用空格，短划线，非数字或适合您的数据的任何内容）拆分文件名，然后通过字典运行单词。如果80％的单词都是英文，这可能是一个非荒谬的名字。

单词列表的示例很多：这是cmudict和/或question