带有Softmax输出层的二进制分类神经网络预测错误

时间:2019-01-16 21:48:43

标签: python tensorflow machine-learning deep-learning classification

  

快速摘要:

     
      
  1. 运行我的网络时,其输出层上没有激活函数,而具有softmax_cross_entropy_with_logits_v2损失函数,则其预测值均为负,并且与我的一个热门输出类(仅为0或1)不同。对我来说没有意义。在我看来,使网络本身的输出概率总和为1是很有意义的,但是我不确定如何在不使用softmax作为输出层的激活函数的情况下实现这一目标。
  2.   

已经回答:

  1. 当我将softmax用作输出类并将cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1]))用作损失函数(如所附问题中所述)时,我的网络会输出所有[nan,nan]个预测
  2. 当我在输出层和softmax_cross_entropy_with_logits_v2损失函数上同时尝试softmax时,我所有的预测都是相同的[0,1]或[1,0]。
  

长版:

我的数据的格式为:

enter image description here 我有以下模型,尝试使用尺寸为2的输出节点执行二进制分类。

def neural_network_model(data):

hidden_1_layer = {'weights': tf.Variable(tf.random_normal([n_features, n_nodes_hl1])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl1]))}
hidden_2_layer = {'weights': tf.Variable(tf.random_normal([n_nodes_hl1, n_nodes_hl2])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl2]))}
hidden_3_layer = {'weights': tf.Variable(tf.random_normal([n_nodes_hl2, n_nodes_hl3])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl3]))}
output_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl3, n_classes])),
                'biases':tf.Variable(tf.random_normal([n_classes]))}

l1 = tf.add(tf.matmul(data, hidden_1_layer['weights']), hidden_1_layer['biases'])
l1 = tf.nn.relu(l1)

l2 = tf.add(tf.matmul(l1, hidden_2_layer['weights']), hidden_2_layer['biases'])
l2 = tf.nn.relu(l2)

l3 = tf.add(tf.matmul(l2, hidden_3_layer['weights']), hidden_3_layer['biases'])
l3 = tf.nn.relu(l3)
# output shape -- [batch_size, 2]
# example output = [[0.63, 0.37], 
#                   [0.43, 0.57]]
output = tf.add(tf.matmul(l3, output_layer['weights']), output_layer['biases'])
softmax_output = tf.nn.softmax(output)

return softmax_output, output

我使用以下功能对其进行训练:

def train_neural_network(x):

softmax_prediction, regular_prediction = neural_network_model(x)

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=softmax_prediction, labels=y))
# cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1]))
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(cost)

per_epoch_correct = tf.equal(tf.argmax(softmax_prediction, 1), tf.argmax(y, 1))
accuracy = tf.reduce_mean(tf.cast(per_epoch_correct, tf.float32))

hm_epochs = 5000
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    pred = []
    for epoch in range(hm_epochs):
        acc = 0
        epoch_loss = 0
        i = 0
        while i < len(X_train)-9:
            start_index = i
            end_index = i + batch_size

            batch_x = np.array(X_train[start_index:end_index])
            batch_y = np.array(y_train[start_index:end_index])

            _ , c, acc, pred = sess.run([optimizer, cost, accuracy, softmax_prediction], feed_dict={x: batch_x, y:batch_y})
            epoch_loss += c
            i += batch_size
        print(pred[0])
        print('Epoch {} completed out of {} loss: {:.9f} accuracy: {:.9f}'.format(epoch+1, hm_epochs, epoch_loss, acc))

    # get accuracy

    correct = tf.equal(tf.argmax(softmax_prediction, 1), tf.argmax(y, 1))
    final_accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))
    print('Accuracy:', final_accuracy.eval({x:X_test, y:y_test})) 

基本上,当我在其输出层上没有激活功能并且没有softmax_cross_entropy_with_logits_v2丢失功能的情况下运行网络时,我的网络“正常工作”(我认为呢?)。但是,当我查看其预测值时,它们全都是负值,与我的一个热门输出类(仅为0或1)不相似,这对我来说没有意义。 enter image description here

此外,我在浏览question中有关使用softmax函数的正确方法的信息,将softmax用作输出层的激活函数对我来说似乎很有意义。这是因为我有2个输出类,因此我的网络可以输出每个类加总为1的概率。但是,当我使用softmax作为我的输出类并且使用cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1]))作为我的损失函数时(如附件中所述)问题),我的网络会输出所有[nan,nan]个预测。当我在输出层和softmax_cross_entropy_with_logits_v2损失函数上同时尝试softmax时,我所有的预测都是相同的[0,1]或[1,0]。我尝试遵循this question中的建议,但是我的网络与softmax输出仍然只输出全部[0,1]或[1,0]的预测。

总的来说,我不确定该如何进行,我相信我一定会误解该网络的结构。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

当使用cross_entropy_with_logits_v2时,传递logit很重要。在应用softmax之前,将其称为logit至先前的值。 应该是这样的:

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=regular_prediction, labels=y))

该函数执行softmax,然后执行cross_entropy。之所以这样,是因为如果将它们单独应用于反向传播,则可能会出现数值不稳定。但是,当同时使用时,它可以简化反向传播并变得100%稳定。

编辑: cross_entropy_with_logits_v2是执行以下cross_entropy(softmax(x),y​​)的层。 问题在于,在向后这种交叉熵和softmax的组合在数值上不稳定。这就是为什么你得到nans。当两者结合在一起时,可以通过以下方式进行简化:https://deepnotes.io/softmax-crossentropy

如果先应用一个然后再应用另一个,tensorflow将无法简化。