dc / os中的gpu / nvidia隔离

时间:2017-06-16 09:02:29

标签: gpu mesos dcos

我在自己的三台虚拟机上安装了DC / OS 1.9,所有节点都没有GPU资源,并且slave / slave-public节点成功启动。在一个从属日志中,它显示如下:

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state.
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed.

在我的另一个测试环境中,其mesos版本是1.0.1,我启动了一个mesos slave(该节点也没有GPU资源)和" cgroups / devices,gpu / nvidia"隔离,但它未能启动。日志显示:

         $(document).ready(function() {
    $("#OrderPackageNumber").change(function(event){
        // You just get the value of selected input
        // You don't need to find anything because you've already selected it
        var selectedd = $(this).val();
        alert(selectedd);
        //id_numbers = new Array();

        var displayString = new Array();
         $.ajax({ 
               url:'getitemsofpackage.php',
               dataType:'json',
               type:'post',
               data:{ namee: selectedd },
               success:  function(data) {
                    console.log(data);

                    alert(JSON.stringify(data));



                },error: function(stats, exception){

              var msg = '';
                if (stats.status === 0) {
                    msg = 'Not connect.\n Verify Network.';
                } else if (stats.status == 404) {
                    msg = 'Requested page not found. [404]';
                } else if (stats.status == 500) {
                    msg = 'Internal Server Error [500].';
                } else if (exception === 'parsererror') {
                    msg = 'Requested JSON parse failed.';
                } else if (exception === 'timeout') {
                    msg = 'Time out error.';
                } else if (exception === 'abort') {
                    msg = 'Ajax request aborted.';
                } else {
                    msg = 'Uncaught Error.\n' + stats.responseText;
                }
                alert(msg);
               // return false;
            }


        });

    });
});
</script>

我想知道:没有GPU资源的节点是否可以通过gpu / nvidia隔离启动mesos-salve?如果是,怎么样?

1 个答案:

答案 0 :(得分:2)

此处DC / OS的行为与vanilla Mesos略有不同。

  • 使用vanilla Mesos,如果启用gpu/nvidia隔离器但未安装NVML,代理将拒绝启动。

  • 使用DC / OS时,如果未安装NVML,代理将发出警告消息(始终启用gpu/nvidia隔离器)。

注意:依赖项是NVML库,而不是实际的GPU资源。如果安装了NVML但框中没有找到GPU,则代理将无法启动gpu/nvidia隔离器启用。

相关问题