区分包含正确句子的文本串的最佳方法是什么,即
The cat sat on the hat
包含纯粹乱码的字符串
$ $ #@^^sSss .....$$ 2 dzw6^^^#73@2 ## @=^^
在java中。
答案 0 :(得分:0)
假设你没有适当的解析器。该语言的字典或您事先不知道该语言,一些假设可能会对您有所帮助,例如:
正确的文字由单词组成,单词由字母组成,单词和几个标点符号之间有空格,可能是数字
单词具有典型的长度范围,即使是允许任意长词的语言(例如德语)
通常,单词全部为小写,初始大写或全部大写
编写一个函数来测试字符串中的那些假设,对现有文本运行多个测试,以定义字符串必须符合这些规则的程度的边界,以及#34;正确的文本"。