java - LingPipe字典大小

我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在从字典值中读取一个文件中的MapDictionary。当文件超过100,000个条目时，解析器开始返回垃圾：

对于10k行（tail -10000 nameList.txt＆gt; shortNameList.txt）

TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了

分块器。所有匹配= false区分大小写= false 短语= |佐伊罗杰斯| start = 69 end = 79 type = PLAYER得分= 1.0

表示100k行（尾部-100000 nameList.txt＆gt; shortNameList.txt）

TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了

分块器。所有匹配= false区分大小写= false 短语= |现在是所有好男人的时间start = 0 end = 32 type = PLAYER score = 1.0 短语= |来帮助他们的国家| start = 33 end = 68 type = PLAYER得分= 1.0 短语= | Zoe Rogers现在是所有人的时间start = 69 end = 103 type = PLAYER得分= 1.0 短语= |好男人来帮助start = 104 end = 134 type = PLAYER score = 1.0

是否有更好的选择来创建MapDictionary？

我已经改变了虚拟机上的内存限制，这似乎没什么帮助。

任何想法？

LingPipe字典大小

1 个答案: