stanford-nlp - 使用自定义来源训练中国分区 - Thinbug

使用自定义来源训练中国分区

时间：2017-05-12 08:50:27

标签： stanford-nlp

我想用新数据训练Chines Segenter，我制作了一本字典和一个序列化的树库文本文件。

我的问题是我不理解或找不到有关以下区别的文件：

-sighanCorporaDict数据

和

-trainFile train.txt

有人可以帮我解决这个问题。我的中文数据集是佛教古代文本，这使得很难替换像-sighanCorporaDict这样的资源？

一切顺利

安德烈亚斯

1 个答案:

答案 0 :(得分：1)

这里有文档用于培训您自己的中文分词：

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDict是一个包含分段器所需资源的目录...这应该设置为分段器分发中的data目录

trainFile应该是已正确分割的句子列表（单词用空格分隔）。