如何处理fasttext库以构建文本分类器?

时间:2019-05-07 14:36:13

标签: python sentiment-analysis text-classification fasttext

我正在用阿拉伯语对twitter数据集进行情感分析,并完成了对数据的预处理阶段。我想使用fasttext工具构建分类器,但我不知道如何,我需要一些明确的步骤来上传数据并建立分类器,有帮助吗?

1 个答案:

答案 0 :(得分:0)

我认为官方教程可能对您有用:https://fasttext.cc/docs/en/supervised-tutorial.html。它说明了要遵循的步骤。

我为您提供了有关数据准备的一些详细信息(本教程对其进行了简要说明)

  • 首先,您必须以这种方式准备数据集:

__ label__firstlabel __label__secondlabel示例文本行
__label__thirdlabel其他示例文本行
__label__firstlabel __label__fourthlabel另一个示例文本行

数据集的每一行必须以一个或多个标签(以供分类器使用)开头,然后是文本行。

  • 然后,您必须将数据集拆分为训练集和验证集

本教程中的示例如下:

  

head -n 12404 Cooking.stackexchange.txt> Cooking.train   
tail -n 3000 Cooking.stackexchange.txt> Cooking.valid

  • 然后您可以训练分类器,对其进行测试并使其变得更好...

一个想法:如果语料库不是很大,则可以使用Fasttext提供的预训练矢量(选项pretrainedVectors:https://fasttext.cc/docs/en/options.html)来提高模型的性能

有关Fasttext的更多信息,我建议本书fastText快速入门指南 由Joydeep Bhattacharjee(https://www.oreilly.com/library/view/fasttext-quick-start/9781789130997/

相关问题