python - 如何处理fasttext库以构建文本分类器？

我认为官方教程可能对您有用：https://fasttext.cc/docs/en/supervised-tutorial.html。它说明了要遵循的步骤。

我为您提供了有关数据准备的一些详细信息（本教程对其进行了简要说明）

__ label__firstlabel __label__secondlabel示例文本行
__label__thirdlabel其他示例文本行
__label__firstlabel __label__fourthlabel另一个示例文本行

数据集的每一行必须以一个或多个标签（以供分类器使用）开头，然后是文本行。

本教程中的示例如下：

head -n 12404 Cooking.stackexchange.txt> Cooking.train
tail -n 3000 Cooking.stackexchange.txt> Cooking.valid

一个想法：如果语料库不是很大，则可以使用Fasttext提供的预训练矢量（选项pretrainedVectors：https://fasttext.cc/docs/en/options.html）来提高模型的性能

有关Fasttext的更多信息，我建议本书fastText快速入门指南由Joydeep Bhattacharjee（https://www.oreilly.com/library/view/fasttext-quick-start/9781789130997/）