deep-learning - 从快照培训Caffe Alexnet与定期培训不一样

我正在寻求有关培训Caffe AlexNet的帮助。该问题的摘要是，报告的Caffe网络连续训练的准确性（AlexNet在随机选择的200,000个ILSVRC 2012图像上）与从解算器状态快照恢复训练报告的准确性不同。

上面的图片显示，报告的准确度因快照前的迭代次数而异，并且与没有快照的培训不匹配。图中的X轴是迭代次数（或者，如果将每个点乘以迷你批量大小100，则处理的图像数）和Y轴，即测试精度。期望所有行都应该匹配，而不管快照的频率如何。

请注意，所有实验都采用相同的方式设置相同的培训/验证数据和参数（即相同的种子，相同的小批量，固定学习率政策，零动量等）。

感谢您的帮助。