GloVe中的N-gram

时间:2017-10-24 15:25:38

标签: nlp stanford-nlp data-mining gensim word-embedding

我想使用GloVe为文档构建单词嵌入。我知道如何获得单个单词(unigrams)的矢量嵌入,如下所示(对于他们的示例文本文档)。

$ git clone http://github.com/stanfordnlp/glove
$ cd glove && make
$ ./demo.sh

现在,我想获得bigrams的矢量嵌入。例如;

  1. “纽约” - >而不是“新”和“约克”
  2. “机器学习” - >而不是“机器”和“学习”
  3. 可以在GloVe中进行吗?如果是,怎么样?

1 个答案:

答案 0 :(得分:0)

我不认为他们有可用的二元组向量,但你可以通过预处理语料库自己生成它们。例如,如果您的语料库中的文档如下所示:

GloVe is love

你可以这样格式化:

START_GloVe GloVe_is is_love love_END

像往常一样在这个语料库中训练一组嵌入物。你也可以看看Word2vec,就像this post中的类似。