从英语单词嵌入到非英语单词嵌入

时间:2018-09-19 09:34:50

标签: tensorflow nlp gensim word-embedding chainer

如何从英语单词嵌入生成非英语(法语,西班牙语,意大利语)单词嵌入?

为非英语单词生成高质量单词嵌入的最佳方法是什么。

单词可能包括(samsung-galaxy-s9)

2 个答案:

答案 0 :(得分:1)

  

如何从英语单词嵌入生成非英语(法语,西班牙语,意大利语)单词嵌入?

你不能真的。除非您的单词含义完全相同。如果您知道法语中的“国王”,“王后”,“女人”和“男人”一词,则可以为这些词嵌入与英语完全相同的词。它们将显示出与英语单词相同的句法和语义特性。但是您不能真正使用英语嵌入来为不同语言进行嵌入。

  

为非英语单词生成高质量单词嵌入的最佳方法是什么

英语单词和非英语单词可以用相同的方式对待。将您的非英语单词表示为字符串/令牌并训练w2v模型。为此使用gensim。您必须找到想要的语言的庞大语料库。然后,您将不得不用这个庞大的语料库训练模型几个时间。做完了或者,以所需的语言查找现有的模型。

  

单词可能包括(samsung-galaxy-s9)

除非您的语料库带有“ samsung-galaxy-s9”之类的词,否则您的模型将不知道其含义。使用语料库,该语料库可能在您希望使用嵌入的域中包含更多单词。

答案 1 :(得分:0)

对于非英语单词,您可以尝试使用双语词典来翻译带有嵌入向量的英语单词。

您需要一个大型语料库才能生成高质量的单词嵌入。对于非英语,您需要使用双语语料库的输入将双语约束添加到原始w2v损失中。

您可以将复合词视为一个整体词,也可以根据您的应用将其拆分。

相关问题