Facebook的Fasttext库如何处理输入中的数字数据以进行单词矢量化?

时间:2018-10-29 02:40:24

标签: facebook nlp vectorization fasttext

我正在使用Facebook的Fasttext进行文本分类。 我想知道fasttext库如何处理文本字符串中作为数字矢量化输入提供的数字。

  1. 在创建单词向量之前,fasttext是否将每个数字以字符串形式转换?

    例如1124至“ 1124”

  2. 还是在训练之前在后台执行其他任何转换/预处理?

    例如1124至“一一二四”

如果我在快速文本中输入的文本包含数字,那么处理数字数据的最佳方法应该是什么?

1 个答案:

答案 0 :(得分:2)

Fasttext不会对数字标记进行任何预处理。它们像其他用空格分隔的“单词”一样对待。

除非您在输入中已经遇到快速文本和数字的特定问题,否则我不会担心快速文本对数字有何影响。只需正常使用即可。

如果您有很多数字,并且它们引起了问题-这是可能的,因为fasttext可能没有针对大多数特定数字的任何有用的向量-您可以进行预处理,以用{{1}替换它们}或其他虚拟令牌。这样,这些句子将与快速文本相​​同:

  1. 我吃了1023个橘子。
  2. 我吃了1024个橘子。

您是否希望将它们视为相同还是不相同取决于您的应用程序。