stanford-nlp - 如何在斯坦福NER中将单词转换为向量

好吧，现在我知道老派AI人的感受......

回到旧时代（包括建立NER系统时），在神经网络起飞之前，统计ML使用定制的特征化器将离散输出转换为矢量。对于语言而言，这通常会导致一个非常长但很稀疏的单热特征向量。例如，特征化器可以为每个单词分配一个热表示：1对应于该单词的索引，而其他地方为零。对于NER，这些功能通常包括单词中的字符（单热编码），长度为$ k $的前缀和后缀，单词形状，词性标记等。

在斯坦福大学的代码中，这些稀疏向量通常表示为一种或另一种形式的Counter个对象，然后传递到Datum对象并转换为更密集的Dataset对象，它被送入优化器（通常是QNMinimizer，实现L-BFGS）。

如何在斯坦福NER中将单词转换为向量

1 个答案: