来自word2vec的txt文件中的未知单词/字符

时间:2016-08-01 14:52:07

标签: python word2vec

我最近在word2vec创建的词汇表中遇到了</s>个单词/字符作为单独的单词。

虽然我确实试图在网上搜索该角色,但实际上我无法在搜索引擎中指定该角色。

那么,有谁知道这个角色是什么?

1 个答案:

答案 0 :(得分:1)

如果您查看word2vec的{​​{3}}行82,

if (ch == '\n') {
  strcpy(word, (char *)"</s>");
  return;
}

</s>只是Mikolov等人使用的一个角色。表示行尾(或更准确地说是\n)。 我不认为它有任何特殊的html / latex参考。它也不会出现在ASCII source code上。