张量流量:RC 0.10 3X比0.9慢

时间:2016-08-01 16:49:37

标签: tensorflow

我正在从源代码编译当前的主版本。如果我使用CUDA 7.5和CUDNN 4.0进行编译,则会出现以下编译错误:

ERROR: /home/rob/tensorflow/tensorflow/contrib/rnn/BUILD:45:1: undeclared inclusion(s) in rule '//tensorflow/contrib/rnn:python/ops/_lstm_ops_gpu':
this rule is missing dependency declarations for the following files included by 'tensorflow/contrib/rnn/kernels/lstm_ops_gpu.cu.cc':
'/usr/local/cuda-7.5/include/cuda_runtime.h'
'/usr/local/cuda-7.5/include/host_config.h'
'/usr/local/cuda-7.5/include/builtin_types.h'
[etc...]

如果我使用CUDNN 5.1进行编译,那么所有内容都会编译并运行,但对于我目前正在运行的训练脚本,执行时间大约是使用通过pip安装的0.9.0版本的执行时间的3倍。

我也尝试了0.10.rc0(gpu)的点子版本,看到相同的3X减速版本0.9.0

我正在使用Ubuntu 14.04,py 3.4和Tesla K40c gpu。 Bazel是版本0.3.1

ver 0.10.0rc0 3X减速的原因是什么?有没有办法重新获得先前的表现?

其次,如何在使用CUDNN 4时消除构建错误?

1 个答案:

答案 0 :(得分:1)

0.10.0rc0的相对慢度是一个正在解决的确认错误。更多信息和状态可在this thread中找到。