区分包含单词的文本块和包含乱码的文本块的最佳算法

时间:2016-09-21 05:52:02

标签: java

区分包含正确句子的文本串的最佳方法是什么,即

The cat sat on the hat

包含纯粹乱码的字符串

$ $ #@^^sSss .....$$ 2 dzw6^^^#73@2 ## @=^^

在java中。

1 个答案:

答案 0 :(得分:0)

假设你没有适当的解析器。该语言的字典或您事先不知道该语言,一些假设可能会对您有所帮助,例如:

  • 正确的文字由单词组成,单词由字母组成,单词和几个标点符号之间有空格,可能是数字

  • 单词具有典型的长度范围,即使是允许任意长词的语言(例如德语)

  • 通常,单词全部为小写,初始大写或全部大写

编写一个函数来测试字符串中的那些假设,对现有文本运行多个测试,以定义字符串必须符合这些规则的程度的边界,以及#34;正确的文本"。

相关问题