nlp - 如何使用n-gram进行多标签分类？

我正在开展一个项目，根据他们用英语交流的方式来确定此人的国籍。我有10个国籍和1000个文件，每个国籍100个。我正在使用n-gram作为功能和希望验证我的方法。我的数据结构将具有不同的n-gram（字符n-gram，bi-gram，作为列）作为特征＆amp;国籍作为标签（作为行）我的步骤是：

获取特定国籍（FINE）的所有文件。 1.1。将它们组合在一起形成文本语料库（例如将100个文件合并为1个大文件）。我最初想过一次拿一个档案＆amp;根据它们的出现更新n-gram的数量。但是对于每个新的n-gram，我将不得不查看它是否已经出现＆amp;然后更新给定标签的频率。这会是一个更好的方法吗？
提取bi-gram / tri-gram＆amp;得到每克的频率。（NLTK有FreqDist，它为每个人提供计数）
存储此信息，因此我会用它来对我的测试集进行分类。（我如何存储这些信息。下面有更多信息）

问题是我应该存储n-gram＆amp;矩阵中的频率信息（具有所有n-gram＆amp;标签的单个矩阵或每个标签的单独矩阵）或者我应该将其存储为地图（每个标签的地图，具有n-gram及其频率计数）。我希望有一个数据结构（用于存储提取的信息），分类器很容易作为输入和输入。处理它们。我无法预见，哪种数据结构是更好的选择。

如何使用n-gram进行多标签分类？

1 个答案: