Question

摘要

我有一个二进制分类任务。毕竟，准确度似乎是％81，但是模型只能预测一个类。

问题：我了解该模型不能学到很多东西；但是为什么只预测一堂课呢？而且我不确定在数据生成过程中是否出错。似乎有什么问题吗？

信息：

我有一个很大的数据（〜2 GB）。因此，我使用Keras的fit_generator方法训练了模型；它不适合内存使用，将来数据可能会更大。
我正在生成器函数中进行预处理和重采样步骤。
数据不平衡。我尝试进行升采样（请参见下面的代码）。
在训练过程中，准确性没有提高；损失几乎没有减少。
这是在测试集上运行classification_report时得到的结果（我对测试集执行完全相同的预处理步骤）：

UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predi
cted samples.

  'precision', 'predicted', average, warn_for)              
              precision    recall  f1-score   support                                                                                                                                                              

     non-VPN       0.81      1.00      0.89     29432                                                                                                                                                              
         VPN       0.00      0.00      0.00      6973                                                                                                                                                              

   micro avg       0.81      0.81      0.81     36405            
   macro avg       0.40      0.50      0.45     36405                                                               
weighted avg       0.65      0.81      0.72     36405

代码：
数据生成器方法：

def data_generotto(path: str, batchsize: int):
    while True:
        chunks = pd.read_csv(os.path.join(
            path, "shuffled.csv"), sep=';', chunksize=batchsize)

        for i, chunk in enumerate(chunks):
            X, y = preprocess.preprocess(chunk)

            # X = np.array(X).reshape(X.shape[0], 1, X.shape[1])

            yield (X, y)

重新采样（以及其他预处理步骤）：

# sorry for messy code
def balance_train_data(data, fold_count=3):
    """Balance the data using sklearn.utils resample to max sentiment count."""
    balanced_data = pd.DataFrame()
    data_dict = dict(data['label'].value_counts())

    for label in data_dict.keys():
        df = data[data.label == label]
        samples_count = int(
            (max(data_dict.values()) - data_dict[label])/fold_count)
        df_up = resample(df, replace=True,
                         n_samples=samples_count, random_state=42)

        print("Resampled {} tweets: {} + {} = {}".format(label,
                                                         len(df), len(df_up), len(df)+len(df_up)))
        balanced_data = pd.concat([balanced_data, df, df_up])
    return shuffle(balanced_data, random_state=42)

一个非常简单的ANN模型：

def create_model(model_folder_name):
    global folder_name
    folder_name = model_folder_name
    model = Sequential()

    model.add(Dense(8, activation='relu', input_dim=4))
    model.add(Dense(4, kernel_initializer='uniform', activation='relu'))
    model.add(Dense(1, kernel_initializer='uniform', activation='sigmoid'))

    optimizer = optimizers.Adam(lr=0.0001)

    model.compile(optimizer=optimizer, loss="binary_crossentropy",
                  metrics=['accuracy'])
    model.summary(print_fn=myprint)

    return model, optimizer.get_config(), "ann"

fit_generator功能：

    model.fit_generator(data_generotto(
        "./complete_csv", BS), steps_per_epoch=TRAIN_SIZE // BS, epochs=EPOCHS, callbacks=[es])

    save_model(model, f"./models/{model_folder_name}/MODEL.h5")

Answer 1

您可以尝试使用imblearn并从中使用不同的采样方法。

此外，为了处理不平衡问题，您可以在拟合模型时尝试使用具有适当权重的class_weight。

Keras模型只能预测一个类

摘要

信息：

1 个答案: