斯坦福分析师模型

时间:2016-04-25 14:54:15

标签: stanford-nlp

Stanford CoreNLP包含几种用于解析英语句子的模型。

  • englishSR
  • english_SD
  • english_UD(depparse annotator的默认值)
  • englishRNN
  • englishFactored
  • englishPCFG(解析注释器的默认设置)
  • englishPCFG.caseless
  • wsjRNN
  • wsjFactored
  • wsjPCFG

以下文件中有一些比较:

我无法找到所有模型的完整描述和比较。 它存在于任何地方吗?如果不是,我认为值得创造。

1 个答案:

答案 0 :(得分:2)

我不能给出完整的清单(也许克里斯会插话?),但我的理解是这些模型是:

  • englishSR:在各种标准树库上训练的班次减少模型,以及斯坦福大学的一些手工注释数据。这是我们拥有的最快,最准确的模型,但加载模型非常庞大。

  • english_SD:斯坦福依赖关系的NN依赖性解析器模型。不赞成使用english_UD - Universal Dependencies模型。

  • english_UD:通用依赖关系的NN依赖关系解析器模型。这是获取依赖树的最快,最准确的方法,但它不会给你选区解析。

  • englishRNN:混合PCFG +神经选区解析器模型。除了shift-reduce模型之外,比任何选区解析器更准确,但也明显更慢。

  • englishFactored:不是100%确定这是什么,但我的印象是精确度和速度都在englishPCFGenglishRNN之间。

    < / LI>
  • englishPCFG:用于选区解析的常规旧PCFG模型。加载速度快,比移位减少模型以外的任何选区模型都快,而且现代标准也是一种平庸的准确性。尽管如此,这是一个很好的默认值。

  • englishPCFG.caseless:PCFG模型的无壳版本。

我认为wsj*模型可以在论文中重现数字(通过适当的WSJ分裂训练),但我再也不能100%确定它们是什么。

根据模型使用的速度,准确度和基本内存帮助选择正确的模型:

  • 快速:10倍,准确,高记忆:englishSR

  • 中等:1x,准确无误,内存不足:englishPCFG

  • 慢:~0.25x,准确,内存不足:englishRNN

  • 快速:100x,准确,低内存,依赖性仅解析:english_UD