LingPipe字典大小

时间:2013-01-10 23:58:12

标签: java nlp

我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在从字典值中读取一个文件中的MapDictionary。当文件超过100,000个条目时,解析器开始返回垃圾:

对于10k行(tail -10000 nameList.txt> shortNameList.txt)

TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了

分块器。所有匹配= false区分大小写= false      短语= |佐伊罗杰斯| start = 69 end = 79 type = PLAYER得分= 1.0

表示100k行(尾部-100000 nameList.txt> shortNameList.txt)

TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了

分块器。所有匹配= false区分大小写= false      短语= |现在是所有好男人的时间start = 0 end = 32 type = PLAYER score = 1.0      短语= |来帮助他们的国家| start = 33 end = 68 type = PLAYER得分= 1.0      短语= | Zoe Rogers现在是所有人的时间start = 69 end = 103 type = PLAYER得分= 1.0      短语= |好男人来帮助start = 104 end = 134 type = PLAYER score = 1.0

是否有更好的选择来创建MapDictionary?

我已经改变了虚拟机上的内存限制,这似乎没什么帮助。

任何想法?

1 个答案:

答案 0 :(得分:0)

结果表明,允许MapDictionary中的任何值为null会破坏chunker。删除任何带有空值的行后,chunker工作正常。

相关问题