每当我训练模型时,内核都会重新启动

时间:2017-05-22 10:40:12

标签: python tensorflow keras

这是代码

 DateFormat sdf = new SimpleDateFormat("dd/MM/yyyy");

这应该证明我已经安装了cuda和cudnn的tensorflow gpu pic

我不知道该怎么办,我多次重新安装了cuda和cudnn

但是,如果我卸载tensorflow-gpu,该程序运行完美......除了每个时期需要5000秒......我想避免那个

fyi,这一切都发生在Windows上

感谢任何帮助

7 个答案:

答案 0 :(得分:3)

tensorflow-gpu 的一个非常麻烦的问题。我花了几天时间才找到最有效的解决方案。

似乎是什么问题:

我知道您在观看 YouTube 视频或互联网文档后可能已经安装了 cudnn 和 cuda(就像我一样)。但是由于 cuda 和 cudnn 对版本冲突非常严格,因此您的 tensorflow 、 cuda 或 cudnn 版本之间可能存在版本不匹配。

解决方案是什么:

在安装 tensorflow 2.3 期间,Anaconda 在 Windows 10 上自动选择的 tensorflow-gpu 版本似乎有问题。请找到解决方法 here(如果您有 GitHub 帐户,请考虑为 GitHub 答案投票)。

Python 3.7:conda install tensorflow-gpu=2.3 tensorflow=2.3=mkl_py37h936c3e2_0

Python 3.8:conda install tensorflow-gpu=2.3 tensorflow=2.3=mkl_py38h1fcfbd6_0

这些片段会自动下载 cuda 和 cudnn 驱动程序以及 tensorflow-gpu。试用此解决方案后,我能够fit() tensorflow 模型以及由于安装了 GPU 提高了速度。

忠告:

如果您从事机器学习/数据科学工作。我强烈建议你转向 anaconda 而不是 pip。这将允许您创建虚拟环境并与 jupyter-notebooks 轻松集成。您可以为机器学习任务创建单独的虚拟环境,因为它们通常需要升级或降级库。在虚拟环境中,它不会损害环境之外的其他包。

答案 1 :(得分:1)

我有同样的问题。就我而言,当我使用所有model.add()代码运行该代码块时,Notebook内核便崩溃了。

我去了Jupyter Home,发现即使我已经关闭了笔记本浏览器选项卡,但我先前用来在GPU上训练模型的另一台笔记本正在运行。正如@伊恩·亨利(Ian Henry)所建议的那样。我关闭了那些我不使用的模块,重新启动了内核,然后再次运行所有块,这一次它运行良好。

请注意,即使关闭浏览器,笔记本也会在后台运行。如果选中相应笔记本的图标,则可以通过以下方法验证该图标:运行时应为绿色,否则请为灰色。要关闭正在运行的笔记本,只需转到“运行”选项卡,然后单击笔记本名称旁边的“关闭”按钮

答案 2 :(得分:0)

我在Jupyter Notebook上运行model.fit()时遇到相同的问题。调试的一个很好的起点是始终将笔记本作为.py文件下载并运行。这样,您会收到所有错误和警告。

在解决方案方面-我怀疑这是否可以解决大多数情况,但是我通过.deb文件安装了cuDNN 7.2(.1),重新安装了tensorflow-gpu,并且可以正常工作。毕竟,这不是驱动程序的版本问题(我使用的是CUDA 9.0和384.xx是正确的),而是使用cuDNN的驱动程序。

答案 3 :(得分:0)

我需要安装

  

conda安装keras

答案 4 :(得分:0)

我遇到了同样的问题。毕竟,将文件作为 .py 运行有助于发现问题出在 cuDNN 上。并非所有文件都已安装。

答案 5 :(得分:-1)

如果您正在使用Jupyter检查任何正在运行的笔记本电脑,并且我发现即使它们正在运行,它们也会挂在GPU内存上。

在jupyter中关闭任何未使用的正在运行的。

答案 6 :(得分:-1)

问题在于Jupyter笔记本。我和Jupyter笔记本一样有问题。如果您在基于CPU的环境或带有GPU的终端中运行相同的代码,它肯定会起作用。