错误:无法匹配检查点gs的文件://obj-detection/train/model.ckpt

时间:2018-02-04 19:25:21

标签: tensorflow object-detection tensorboard google-cloud-ml

我在google cloud ml上运行我的检测模型,并在运行评估脚本时遇到此错误。我发现this link提到了这个问题,但看起来问题似乎还没有解决。谁知道如何解决这个问题?任何帮助将不胜感激。感谢。

  

ERROR 2018-02-04 12:53:10 -0600 master-replica-0无法匹配文件   for checkpoint gs://obj-detection/train/model.ckpt-0

     

INFO 2018-02-04 12:53:10 -0600 master-replica-0找不到模特儿   GS:// OBJ-检测/火车。将在300秒内再试一次

     

INFO 2018-02-04 12:58:10 -0600 master-replica-0开始评估   在2018-02-04-18:58:10

     

ERROR 2018-02-04 12:58:10 -0600 master-replica-0无法匹配文件   for checkpoint gs://obj-detection/train/model.ckpt-0

     

INFO 2018-02-04 12:58:10 -0600 master-replica-0未找到模型   GS:// OBJ-检测/火车。将在300秒内再试一次

     

...

虽然培训日志的工作方式如下:

  

......在大约14个小时的运行时间

     

INFO 2018-02-04 05:09:05 -0600 worker-replica-3 global step 185874:   损失= 0.7012(0.764秒/步)

     

INFO 2018-02-04 05:09:05 -0600 worker-replica-4 global step 185873:   损失= 0.7749(0.797秒/步)

     

INFO 2018-02-04 05:09:05 -0600 worker-replica-2全球一步185875:   损失= 0.4939(0.775秒/步)

     

INFO 2018-02-04 05:09:05 -0600 master-replica-0 global step 185877:   损失= 1.1430(0.850秒/步)

     

INFO 2018-02-04 05:09:05 -0600 worker-replica-1全球一步185878:   损失= 0.8231(0.777秒/步)

     

INFO 2018-02-04 05:09:05 -0600 worker-replica-0全球一步185881:   损失= 0.6470(0.779秒/步)

1 个答案:

答案 0 :(得分:0)

要检查的一些事项:

  1. 培训代码是否设置为实际导出检查点?如果您使用Estimator,这通常有效,假设您使用标准方法运行Estimator(例如,在TF&gt; = 1.4,Estimator.train_and_evaluate)。< / LI>
  2. 您是否将正确的输出目录传递给保存检查点的代码?例如,培训代码是否可以将检查点输出到本地(临时?)目录而不是GCS?可以将检查点保存到GCS上的其他目录吗?快速扫描代码+一些很好的打印/记录语句在这里很有用。
  3. 培训代码导出检查点的频率如何?例如,如果它只节省了10分钟,那么对于每次成功的评估,您都会期望大约1-2个“没有找到模型”消息。