对于中文,crf ++中一个单词标记和多个单词标记的区别是什么?

时间:2015-11-16 04:46:33

标签: crf++

我使用crf ++进行中文命名实体识别。列车文件中的第一列是令牌代表当前单词。我看到有人在第一列只使用一个汉字,但有人使用很多中文字符,如中国。

1 个答案:

答案 0 :(得分:0)

中文单词可以是1个汉字或乘以汉字:
中代表英文单词 - middle。
国代表另一个英文单词 - country。
和中国代表英文单词 - 中国。
他们是相同的 - 现在的话 - 就像' CHINA'有5个英文字符,中国有2个汉字 - 都是cft ++中的当前单词。