Question

我选择了Sagemaker提供的BlazingText算法。

我的训练集中的文本可以有一个或多个标签，我想预测一篇文章最可能的标签。

我没有找到如何为此正确设置培训文件的方法。我已经按照以下格式

__label__1 __label__2 token1 token2 ... __label__2 token token token ...

我做对了吗？

Answer 1

以下是使用SageMaker内置算法（包括BlazingText）进行多标签文本分类的可能选项：

使用诸如SageMaker Object2vec之类的2臂嵌入模型，该模型可以了解一段文本和任意数量的标签之间的相似性。实际上有一个demo for multilabel text classification here
使用一个BlazingText实例作为多标签分类器：在训练时，每行提供多个以空格分隔的标签（虽然尝试不使用BlazingText，但似乎受fastText支持）或所有可能的标签-文本对，并进行推断时间，请使用"k" parameter："configuration": {"k": N}来查询前N个预测标签。
使用多个Blazingtext分类器，每个标签一个。这可能会更多比上面的选项开发起来复杂，但不一定更多考虑到BlazingText是非常浅且快速的神经网络

Answer 2

通常，多标签意味着您有多个标签要分类，而不是每个句子在训练集中都应有多个标签。

如果同一句子有多个标签，则可以为每个标签复制该句子。

代替：

package mainpackage;

import javafx.application.Application;
import javafx.stage.Stage;

public class Main extends Application {

    @Override
    public void start(Stage primaryStage) throws Exception {
        primaryStage.setTitle("Window");

        primaryStage.show();
    }   

    public static void main(String[] args) {
        Application.launch(args);
    }

}



Error: Could not find or load main class mainpackage.Main
Caused by: java.lang.NoClassDefFoundError: javafx/application/Application

使用：

__label__1 __label__2 token1 token2

在检索前k个预测的测试或预测时间内，您可以在配置中设置k：

__label__1 token1 token2 
__label__2 token1 token2

如何在Sagemaker中训练多标签文本分类？

2 个答案: