使用自定义来源训练中国分区

时间:2017-05-12 08:50:27

标签: stanford-nlp

我想用新数据训练Chines Segenter,我制作了一本字典和一个序列化的树库文本文件。

我的问题是我不理解或找不到有关以下区别的文件:

-sighanCorporaDict数据

-trainFile train.txt

有人可以帮我解决这个问题。我的中文数据集是佛教古代文本,这使得很难替换像-sighanCorporaDict这样的资源?

一切顺利

安德烈亚斯

1 个答案:

答案 0 :(得分:1)

这里有文档用于培训您自己的中文分词:

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDict是一个包含分段器所需资源的目录...这应该设置为分段器分发中的data目录

trainFile应该是已正确分割的句子列表(单词用空格分隔)。

相关问题