tensorflow - 评估和预测使用相同的数据集和相同的检查点可获得不同的结果

我正在训练一个网络，以使用adapt_universal_transformer和tensor2tensor框架预测时间序列分类。每个目标时间戳都是一个分类，与上一个时间戳无关。我使用py_func接收要素，然后在自定义指标函数中打印预测和输入。 t2t_decode和t2t_eval的预测在t2t_datagen创建的相同测试数据集之间是不同的。我检查了输入是否相同。评估结果比预测结果准确得多。

如果t2t_train和t2t_eval中的评估结果是基线，则预测来自decode_from_dataset和t2t_decoder中estimator.evaluate的结果，该结果来自定制的生成器tensor2tensor.utils.decoding.make_input_fn_from_generator中的错误。我已经在自定义指标函数中检查了features['inputs']，predictions，labels中的每一个，features['inputs']相同，但预测却不同。

我该如何解决问题？还是如何在不更改tensor2tensor代码的情况下获得渴望执行的结果？

评估和预测使用相同的数据集和相同的检查点可获得不同的结果

0 个答案: