Question

我正在使用词性标注，并开始使用OpenNLP。

我使用以下代码加载模型（Java）：

        m_modelFile = new FileInputStream("c:\\DATA\\en-parser-chunking.bin");
        m_model = new ParserModel(m_modelFile);
        m_parser = ParserFactory.create(m_model);  
        ...
        Parse topParses[] = ParserTool.parseLine(sentence, m_parser, 1);

我注意到创建ParserModel对象的调用非常慢。可能是b / c en-parser-chunking.bin的大小是35MB。有没有更好的方法来使用它，以便它不是这么慢？或者，您推荐使用POS标记器还是调用API的方式更快？

我一直在玩准确性，而且非常好。但是，我对加载模型时的性能不满意......

谢谢你们。

Answer 1

如果您正在寻找快速Java（或Python）POS标记器，您可以考虑使用RDRPOSTagger。 RDRPOSTagger是一个功能强大，易于使用且与语言无关的POS和形态标记工具包。它在学习和标记过程中获得了快速的性能。例如在Java中，使用具有Core2Duo 2.4 GHz的计算机，标记速度为90K英语单词/秒。与最先进的结果相比，它实现了极具竞争力的准确性。请参阅this paper中13种语言的实验结果，包括效果速度和标记准确性。

POS标记太慢 - 使用OpenNLP

1 个答案: