斯坦福CoreNLP培训示例

时间:2015-07-08 20:16:10

标签: stanford-nlp

任何人都知道以下文件的位置:

trainFileList = /u/nlp/data/ner/column_data/muc6.ptb.train, /u/nlp/data/ner/column_data/muc7.ptb.train

我正在关注常见问题解答链接http://nlp.stanford.edu/software/crf-faq.shtml#a

如果我需要做的就是提供一个包含两个由标记和类组成的列的文件,那么这将起作用。但我很好奇分类器属性文件中列出的列车文件。

serializeTo = english.muc.7class.caseless.distsim.crf.ser.gz

java -mx1g -cp" $ CLASSPATH" edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner.model classifiers / english.all.3class.distsim.crf.ser.gz,classifiers/english.conll.4class.distsim.crf.ser.gz, classifiers / english.muc.7class.distsim.crf.ser.gz -outputFormat tabbedEntities -textFile sample.txt> sample2.tsv

1 个答案:

答案 0 :(得分:1)

这些文件是MUC-6和MUC-7任务的训练数据:

http://cs.nyu.edu/faculty/grishman/muc6.html

他们不是由斯坦福分发的。我会看看我是否可以弄清楚它们的分布位置并更新这个答案。

更新:如果您想获得副本,LDC会分发这些文件,他们有版权问题,因此您必须从LDC购买,这就是我们不分发它们的原因。以下是一些包含更多信息的链接:

http://www-nlpir.nist.gov/related_projects/muc/muc_data/muc_data_index.html

https://catalog.ldc.upenn.edu/LDC2003T13

https://catalog.ldc.upenn.edu/LDC2001T02