CNN模型的损失收敛性和准确性差

时间:2018-04-06 05:51:50

标签: tensorflow loss-function

我使用TF构建了一个二元分类器,它将16x16灰度图像分类为两个类别中的一个,分布为87-13。我遇到的问题是模型的log loss converges to ~0.4,它比随机更好但是我无法在此之外进行改进。

视觉问题属于视频编码领域This image should provide some understanding to the problem,其中图像要么基于它们的同质性要么被分割(0/1)。注意边缘附近的方块更可能被细分为较小的方块。

在验证模型时(1.1e7示例,87-13分布),我无法实现F1-score better than ~50%

我的训练数据包括2.2e8个例子,这些例子被过采样/欠采样以达到50-50分布。我使用批量大小为1024的实质混洗缓冲区(数据不是以开头的顺序排列)。使用Adam优化,默认超参数。

我试图改善表现的事情(测试(结果)):

  • 更大的网络,更改层数,激活,卷积内核大小和步幅等(相同的收敛)
  • 密集层之间的丢失(与大网相同的性能,小网的性能更差)
  • 其他亚当超参数(最终导致相同的收敛)
  • 其他优化工具(与上述相同)
  • 使用非常小的数据集进行训练以测试收敛(损失饱和为0)
  • 规范投入(无效)
  • 改变批量大小(仅影响损耗和收敛时间内的噪声)

我一直在努力让表现得到改善,我想我已经读过每一个我能找到的SO问题了。任何建议都会有很大的帮助。

def cnn_model(features, labels, mode):
#   downsample to 8x8 using 2x2 local averaging
    features_8x8 = tf.nn.avg_pool(
            value=tf.cast(features["x"], tf.float32),
            ksize=[1, 2, 2, 1],
            strides=[1, 2, 2, 1],
            padding="SAME",
            data_format='NHWC'
            )
    conv2d_0 = tf.layers.conv2d(inputs=features_8x8,
                                filters=6,
                                kernel_size=[3, 3],
                                strides=(1, 1),
                                activation=tf.nn.relu,
                                name="conv2d_0")
    pool0 = tf.layers.max_pooling2d(
            inputs=conv2d_0,
            pool_size=(2, 2),
            strides=(2, 2),
            padding="SAME",
            data_format='channels_last'
            )
    conv2d_1 = tf.layers.conv2d(inputs=pool0,
                                filters=16,
                                kernel_size=[3, 3],
                                strides=(3, 3),
                                activation=tf.nn.relu,
                                name="conv2d_1")
    reshape1 = tf.reshape(conv2d_1, [-1, 16])
    dense0 = tf.layers.dense(inputs=reshape1,
                             units=10,
                             activation=tf.nn.relu,
                             name="dense0")
    logits = tf.layers.dense(inputs=dense0,
                             units=1,
                             name="logits")

    # ########################################################

    predictions = {
            "classes": tf.round(tf.nn.sigmoid(logits)),
            "probabilities": tf.nn.sigmoid(logits)
            }

    # ########################################################

    if mode == tf.estimator.ModeKeys.PREDICT:
        return tf.estimator.EstimatorSpec(mode=mode,
                                          predictions=predictions)

    # ########################################################

    cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits(
            labels=tf.cast(labels['y'], tf.float32),
            logits=logits
            )

    loss = tf.reduce_mean(cross_entropy)

    # ########################################################

    # Configure the Training Op (for TRAIN mdoe)
    if mode == tf.estimator.ModeKeys.TRAIN:
        optimiser = tf.train.AdamOptimizer(learning_rate=0.001,
                                           beta1=0.9,
                                           beta2=0.999,
                                           epsilon=1e-08)
        train_op = optimiser.minimize(
                loss=loss,
                global_step=tf.train.get_global_step())
        return tf.estimator.EstimatorSpec(mode=mode,
                                          loss=loss,
                                          train_op=train_op)
    # Add evalutation metrics (for EVAL mode)
    eval_metric_ops = {
            "accuracy": tf.metrics.accuracy(
                    labels=labels["y"],
                    predictions=predictions["classes"]),
            }
    return tf.estimator.EstimatorSpec(mode=mode,
                                      loss=loss,
                                      eval_metric_ops=eval_metric_ops)

1 个答案:

答案 0 :(得分:0)

看来你已经做了很多。我接下来的步骤是

的可视化
  • 数据集:人类可以区分这些类吗?
  • 重量:他们在训练期间收敛/改变
  • 像VGG这样精心设计的模型如何运作?

可能,您要求一个非常困难的视力问题。我们可以看到图像或获取数据样本吗?然后,有经验的人可以尝试提出一个(希望)工作的基本模型......