nlp - 如何使用FastText处理不平衡的标签数据？

Fasttext似乎可以很好地处理不平衡的数据。根据{{3}}

还请注意，这种损失被认为是针对不平衡的班级，即某些班级比其他班级更频繁。

在我们的例子中，我们有一个非常偏斜的数据集，其中有 200+个类和 20％个类，其中包含所有数据的 80％ 。

在我们的数据中，即使存在这种高度偏斜的数据，我们对类别内的文本也有一个清晰的定义。

示例：多数班的文本：“ 嘿，我需要一台计算机和一个鼠标来打开 Internet 并发布一个 堆栈溢出 ”

中编程答案

少数民族课程的文本：“ 嘿，请给我以下物品：鸡蛋，生菜，洋葱， 西红柿，牛奶和小麦？”

由于FastText可以处理WordNGrams和层次结构拆分（如果您在上述情况下具有定义得很好的类别），由于算法的性质，不平衡不是问题。

参考：Bag of Tricks for Efficient Text Classification-Armand Joulin，Edouard Grave，Piotr Bojanowski，Tomas Mikolov