技术解读NVIDIA最新vGPU7.0解决方案,赋能AI实践特性(转)

最新的NVIDIA vGPU解决方案通过加速工作流程、让用户能够随时随地开展工作,助力设计师和工程师将其创作转变为现实。此外,数字化办公场所中现代化应用程序和操作系统(如Windows 10)的图形密集程度越来越高,最新vGPU解决方案可为其提供经济高效的性能和易管理性。分享现场,NVIDIA中国区云计算总监马庆胜马庆胜、GPU虚拟化高级解决方案架构师张洁、以及中国区解决方案架构师李浩南对该方案进行了全面细致的技术解读。

5年前,NVIDIA推出了GPU虚拟化。如今,NVIDIA GRID经过5年多的发展,从软硬一体到单纯的软件,从一个只能支持一个明确固定型号的GPU到现支持最新Tesla系列的所有GPU,从对图形图像进行支持、解决客户在使用图形图像时的重负载应用时如何在数据中心部署的问题,到如今在虚拟GPU上实现GPU计算部分能力的业务。

2018年10月份,NVIDIA发布了vGPU 7.0,这个版本当中重点增强了以下几方面的特性。

一、对于GPU虚拟化本身来说,在最早提出的时候是把一个物理的GPU去做切片,实现了“一虚多”的概念,在桌面虚拟化的场景里可以替代传统的工作站场景。vGPU 7.0当中最重要的特性是在传统的切片形式上,支持了另外一种形式,即可以把多个物理GPU分配给某一个虚拟机,以拓展整个GPU虚拟化的用户场景。也就是说不仅可以做GPU资源切片,还可以满足对GPU图形和计算的要求不是很高的用户场景,实现资源共享。从另外一个角度来说,如果用户对GPU的资源、对算力要求更强,可以在vGPU 7.0的平台里实现多GPU,从而满足用户对高算力的要求。在vGPU 7.0之前,这方面是一个空白。

此外,vGPU 7.0对计算机和算力需求的满足还体现在提供了一个良好的上下游生态环境。在上游,NVIDIA和软件厂商一起深度合作,让其应用可以最大化利用GPU的资源做图形、计算加速;在下游,NVIDIA和大量的服务器硬件厂商、云厂商合作,让GPU可以部署在传统的数据中心或者是云端。另外,NVIDIA还把在物理GPU上做的所有生态环境的事情,平滑移植到虚拟GPU上,让虚拟GPU也可以得到相同的生态环境支持。一个物理GPU的用户,可以通过生态环境的一致性,非常平滑地移植到虚拟环境里,从而保证用户体验。虽然GPU不可能完全按照客户的实际需要来匹配型号,但是今天的虚拟化,意味着NVIDIA可以把资源放在资源池里,以更好地匹配客户的需要。

二、数据中心的属性加强。因为数据中心强调高可用性、业务稳定性,因此数据中心会比传统用户前端的计算模式要求更高的灵活性和管理性。所以vGPU 7.0配合了VMware最新版本的服务器虚拟化解决方案,vSphere 6.7 U1。可配合VMware在数据中心实现带有GPU的虚拟机可实现动态的热迁移,在迁移的整个过程当中,用户的业务是不中断的。

  • vGPU 7.0加入了AI的特性。借助可配合简化AI部署的NVIDIA GPU Cloud,用户可以从云端快速地把需要做人工智能业务的用户环境拖下来进行部署,而之前所有的NVIDIA GPU Cloud的云端服务是不支持虚拟化平台部署的。在vGPU上,我们可以配合NVIDIAGPU Cloud,快速部署人工智能相关的业务负载。

据李浩南介绍,在虚拟化技术不具备GPU功能的时候,客户使用传统图形工作站时经常会面临多个痛点。

第一个痛点是数据安全问题。为了安全性,大的企业会把USB口封掉,再购买一些数据加密软件,对硬盘进行全盘加密等。有了vGPU技术之后,图形工作站可通过vGPU的技术,进行集中化的管理不再有数据丢失的问题。

第二个痛点是配置不灵活。有些设计师提的一些配置要求是和当下的需求相关的,但是随着业务越来越复杂,设计师会提出配置不够、需要换机器、改配硬件的需求,IT操作起来很麻烦。有了vGPU在数据中心的实现,IT很容易配置多CPU,包括vGPU7.0可以用多GPU技术。多GPU技术有几个场景,比如说在原来的图形工作站中的一些高端场景里会配两个GPU,如果在CD场景里,一个GPU做3D建模,一个GPU做仿真;在影视后期里,一个GPU用来做动画建模,另外一个GPU用来做渲染……只有一个GPU的时候,只能在一个时间内做其中一个任务,而两个GPU可以同时做:一个做交互式的设计,一个用来做渲染。

第三个痛点是提升效率。在制造业的场景里,PDM解决方案很常见,设计师使用传统的图形工作站时,设计数据都是保存在PDM服务器上的,也就是说设计师在工作前,要先到PDM服务器上去拿数据,他可能需要等十几分钟。有了vGPU技术之后,实际的虚拟工作站和PDM服务器在同一个数据中心的网络中,数据加载速度很快,且加载好之后,可以马上把加载好的场景通过虚拟化的编解码方式传递像素。设计师短时间内可以开始设计了,达到提升效率的目的。

所以安全、配置灵活、提升效率就是NVIDIA vGPU给客户带来的好处。因此目前,vGPU在多个领域的应用程度都十分之高。

传统的图形工作站在解决使用者对性能要求的同时还有一大弊端,因为数据流在本地,这意味着技术解读NVIDIA最新vGPU7.0解决方案,赋能AI实践特性

最新的NVIDIA vGPU解决方案通过加速工作流程、让用户能够随时随地开展工作,助力设计师和工程师将其创作转变为现实。此外,数字化办公场所中现代化应用程序和操作系统(如Windows 10)的图形密集程度越来越高,最新vGPU解决方案可为其提供经济高效的性能和易管理性。分享现场,NVIDIA中国区云计算总监马庆胜马庆胜、GPU虚拟化高级解决方案架构师张洁、以及中国区解决方案架构师李浩南对该方案进行了全面细致的技术解读。

5年前,NVIDIA推出了GPU虚拟化。如今,NVIDIA GRID经过5年多的发展,从软硬一体到单纯的软件,从一个只能支持一个明确固定型号的GPU到现支持最新Tesla系列的所有GPU,从对图形图像进行支持、解决客户在使用图形图像时的重负载应用时如何在数据中心部署的问题,到如今在虚拟GPU上实现GPU计算部分能力的业务。

2018年10月份,NVIDIA发布了vGPU 7.0,这个版本当中重点增强了以下几方面的特性。

一、对于GPU虚拟化本身来说,在最早提出的时候是把一个物理的GPU去做切片,实现了“一虚多”的概念,在桌面虚拟化的场景里可以替代传统的工作站场景。vGPU 7.0当中最重要的特性是在传统的切片形式上,支持了另外一种形式,即可以把多个物理GPU分配给某一个虚拟机,以拓展整个GPU虚拟化的用户场景。也就是说不仅可以做GPU资源切片,还可以满足对GPU图形和计算的要求不是很高的用户场景,实现资源共享。从另外一个角度来说,如果用户对GPU的资源、对算力要求更强,可以在vGPU 7.0的平台里实现多GPU,从而满足用户对高算力的要求。在vGPU 7.0之前,这方面是一个空白。

此外,vGPU 7.0对计算机和算力需求的满足还体现在提供了一个良好的上下游生态环境。在上游,NVIDIA和软件厂商一起深度合作,让其应用可以最大化利用GPU的资源做图形、计算加速;在下游,NVIDIA和大量的服务器硬件厂商、云厂商合作,让GPU可以部署在传统的数据中心或者是云端。另外,NVIDIA还把在物理GPU上做的所有生态环境的事情,平滑移植到虚拟GPU上,让虚拟GPU也可以得到相同的生态环境支持。一个物理GPU的用户,可以通过生态环境的一致性,非常平滑地移植到虚拟环境里,从而保证用户体验。虽然GPU不可能完全按照客户的实际需要来匹配型号,但是今天的虚拟化,意味着NVIDIA可以把资源放在资源池里,以更好地匹配客户的需要。

二、数据中心的属性加强。因为数据中心强调高可用性、业务稳定性,因此数据中心会比传统用户前端的计算模式要求更高的灵活性和管理性。所以vGPU 7.0配合了VMware最新版本的服务器虚拟化解决方案,vSphere 6.7 U1。可配合VMware在数据中心实现带有GPU的虚拟机可实现动态的热迁移,在迁移的整个过程当中,用户的业务是不中断的。

三、vGPU 7.0加入了AI的特性。借助可配合简化AI部署的NVIDIA GPU Cloud,用户可以从云端快速地把需要做人工智能业务的用户环境拖下来进行部署,而之前所有的NVIDIA GPU Cloud的云端服务是不支持虚拟化平台部署的。在vGPU上,我们可以配合NVIDIAGPU Cloud,快速部署人工智能相关的业务负载。

据李浩南介绍,在虚拟化技术不具备GPU功能的时候,客户使用传统图形工作站时经常会面临多个痛点。

第一个痛点是数据安全问题。为了安全性,大的企业会把USB口封掉,再购买一些数据加密软件,对硬盘进行全盘加密等。有了vGPU技术之后,图形工作站可通过vGPU的技术,进行集中化的管理不再有数据丢失的问题。

第二个痛点是配置不灵活。有些设计师提的一些配置要求是和当下的需求相关的,但是随着业务越来越复杂,设计师会提出配置不够、需要换机器、改配硬件的需求,IT操作起来很麻烦。有了vGPU在数据中心的实现,IT很容易配置多CPU,包括vGPU7.0可以用多GPU技术。多GPU技术有几个场景,比如说在原来的图形工作站中的一些高端场景里会配两个GPU,如果在CD场景里,一个GPU做3D建模,一个GPU做仿真;在影视后期里,一个GPU用来做动画建模,另外一个GPU用来做渲染……只有一个GPU的时候,只能在一个时间内做其中一个任务,而两个GPU可以同时做:一个做交互式的设计,一个用来做渲染。

第三个痛点是提升效率。在制造业的场景里,PDM解决方案很常见,设计师使用传统的图形工作站时,设计数据都是保存在PDM服务器上的,也就是说设计师在工作前,要先到PDM服务器上去拿数据,他可能需要等十几分钟。有了vGPU技术之后,实际的虚拟工作站和PDM服务器在同一个数据中心的网络中,数据加载速度很快,且加载好之后,可以马上把加载好的场景通过虚拟化的编解码方式传递像素。设计师短时间内可以开始设计了,达到提升效率的目的。

所以安全、配置灵活、提升效率就是NVIDIA vGPU给客户带来的好处。因此目前,vGPU在多个领域的应用程度都十分之高。

传统的图形工作站在解决使用者对性能要求的同时还有一大弊端,因为数据流在本地,这意味着数据安全性是个问题,同时现在设计要求协同完成,使用者的服务场所可能会分布在不同的地点。这些问题一直困扰着这些既需要强大的图形处理能力同时又希望能够满足数据安全、协同工作的用户。如果说没有GPU虚拟化,就要在满足设计师工作需要和解决数据安全中做出取舍。有了GPU虚拟化,这些问题就迎刃而解。不仅数据安全、协同可以解决,同时可以使得资源调度做得更好,特别是在图形重负载、设计领域。这些领域中CAD建模、CAE和渲染都都集中在数据中心,使得围绕着数据中心构建的GPU资源可以更好地给用户灵活使用。而且现在,很多企业希望可以介入到人工智能深度学习的领域里,使得产品具备人工智能的属性和特征,但是他又没有能力研发,所以实际上因为在vGPU上支持了人工智能的特性,所以使得很多技术人员可以在这个环境下去学习、了解和尝试,使得在产品设计和研发过程当中能够把人工智能的属性和产品的特性做结合,更好提升自己产品的独特性。

此外,马庆胜也提到,图形的轻负载应用也是较为常见的场景之一。微软推出Windows 10之后,几乎所有的Win10系统所支持的应用都需要得到GPU支持,或者说需要大量的GPU资源才能让运行在Win10上的各种应用效果得到很好的提升。在物理机上,无论是笔记本还是台式机都有GPU的存在,但是如果说是构建在桌面虚拟化或者是桌面云上,没有GPU那自然就体验不好,NVIDIA vGPU解决方案可以解决这个问题。不仅如此,因为提高了密度,因此用户可以更加经济、更加有效的在数据中心部署他的桌面。

除图形的重负载和图形的轻负载应用之外,张洁也补充了单独运算方面的一些应用场景。NVIDIA在2017年的时候发布了vGPU 5.0,这个版本当中,第一次引入了通过vGPU支持计算的功能,从而实现了GPU对计算方面的加速。NVIDIA的GPU两个很重大的应用场景:一个是图形场景,一个是计算场景。我们在一个统一平台里可以实现两种负载,这两种负载又会延伸出来不同的更细节的场景。图形方面,有办公的图形Win10,也有设计用户的重负载的图形。计算方面也会延伸出不同的场景,在vGPU跟人工智能相结合的地方,比较多的是一些教育行业的案例。

从2003年北大第一次开设了人工智能的课程,到2018年6月份,全国已经有50多个大学开设了人工智能课程。但是这个课程开设完了之后,学生需要有一个GPU的环境来实现他的实际操练、实际训练的过程。一般来说,如果没有GPU虚拟化,老师可能需要给每一个学生配一个物理GPU。而有了GPU虚拟化后,可以给每个学生提供一个虚拟的GPU来做实训、培训。从另外一个角度来说,在一定程度上可以降低用户成本。一个典型的场景是:做实训的时候,给学生一个切割的vGPU、一个完整的环境,让他基本了解GPU怎么做加速的一些功能。另外,GPU虚拟化可以让GPU资源灵活调度,因此在非教学时间,GPU的资源可以通过虚拟化释放出来,老师可以把这些GPU资源再聚合起来做一些科研上的工作。

vGPU在过去一年经历了飞速发展,整个产品的迭代很快,能够基础解决的层面都是快速在向前发展。目前在国内,NVIDIA在制造业、重型制造业、车企等领域的客户已经部分开始部署了。举一个案例,为主机场提供配套设备的一家企业。它的规模不算很大,大概有300多个设计师,因为要和主机厂对接,300多个设计师如果用传统的图形工作站,企业每年做软件的正版维护花费大概在8000万到1亿。为什么这么高呢?因为如果用传统的图形工作站,每个设计师都要配备相关的软件,而且软件都得是正版的,才能保证它的数据跟主机厂的同步。而且不知道这些设计师对这些软件的调用、使用如何,是不是一天8小时、10个小时、12个小时都在用?后来NVIDIA vGPU解决方案得到认可,企业觉得可以替换掉工作站以便数据安全、协同以及更好的整合资源。在实践过程当中,考虑到如何让这些工具软件、设计软件有更好的经济效益,是不是300个人就要买300多个license,他们又使用了额外的一个功能——加了一个必要的应用开发之后,以鼠标停滞一定时间来设计,可以查看设计师到底对这些软件的使用情况如何。统计下来发现设计师每天有效的工作时间大概两三个小时。这意味着在软件的调用上,没有必要为每一个设计师都配备License,成本节省很可观。

马庆胜表示,GPU虚拟化是软件,依托于GPU硬件,由于稳定而强大的底层GPU的硬件,所以NVIDIA的软件在快速迭代下也能保证稳定性。未来,NVIDIA还将继续和VMware密切合作,充分发挥双方的优势共同满足市场的需要。

是个问题,同时现在设计要求协同完成,使用者的服务场所可能会分布在不同的地点。这些问题一直困扰着这些既需要强大的图形处理能力同时又希望能够满足数据安全、协同工作的用户。如果说没有GPU虚拟化,就要在满足设计师工作需要和解决数据安全中做出取舍。有了GPU虚拟化,这些问题就迎刃而解。不仅数据安全、协同可以解决,同时可以使得资源调度做得更好,特别是在图形重负载、设计领域。这些领域中CAD建模、CAE和渲染都都集中在数据中心,使得围绕着数据中心构建的GPU资源可以更好地给用户灵活使用。而且现在,很多企业希望可以介入到人工智能深度学习的领域里,使得产品具备人工智能的属性和特征,但是他又没有能力研发,所以实际上因为在vGPU上支持了人工智能的特性,所以使得很多技术人员可以在这个环境下去学习、了解和尝试,使得在产品设计和研发过程当中能够把人工智能的属性和产品的特性做结合,更好提升自己产品的独特性。

此外,马庆胜也提到,图形的轻负载应用也是较为常见的场景之一。微软推出Windows 10之后,几乎所有的Win10系统所支持的应用都需要得到GPU支持,或者说需要大量的GPU资源才能让运行在Win10上的各种应用效果得到很好的提升。在物理机上,无论是笔记本还是台式机都有GPU的存在,但是如果说是构建在桌面虚拟化或者是桌面云上,没有GPU那自然就体验不好,NVIDIA vGPU解决方案可以解决这个问题。不仅如此,因为提高了密度,因此用户可以更加经济、更加有效的在数据中心部署他的桌面。

除图形的重负载和图形的轻负载应用之外,张洁也补充了单独运算方面的一些应用场景。NVIDIA在2017年的时候发布了vGPU 5.0,这个版本当中,第一次引入了通过vGPU支持计算的功能,从而实现了GPU对计算方面的加速。NVIDIA的GPU两个很重大的应用场景:一个是图形场景,一个是计算场景。我们在一个统一平台里可以实现两种负载,这两种负载又会延伸出来不同的更细节的场景。图形方面,有办公的图形Win10,也有设计用户的重负载的图形。计算方面也会延伸出不同的场景,在vGPU跟人工智能相结合的地方,比较多的是一些教育行业的案例。

从2003年北大第一次开设了人工智能的课程,到2018年6月份,全国已经有50多个大学开设了人工智能课程。但是这个课程开设完了之后,学生需要有一个GPU的环境来实现他的实际操练、实际训练的过程。一般来说,如果没有GPU虚拟化,老师可能需要给每一个学生配一个物理GPU。而有了GPU虚拟化后,可以给每个学生提供一个虚拟的GPU来做实训、培训。从另外一个角度来说,在一定程度上可以降低用户成本。一个典型的场景是:做实训的时候,给学生一个切割的vGPU、一个完整的环境,让他基本了解GPU怎么做加速的一些功能。另外,GPU虚拟化可以让GPU资源灵活调度,因此在非教学时间,GPU的资源可以通过虚拟化释放出来,老师可以把这些GPU资源再聚合起来做一些科研上的工作。

vGPU在过去一年经历了飞速发展,整个产品的迭代很快,能够基础解决的层面都是快速在向前发展。目前在国内,NVIDIA在制造业、重型制造业、车企等领域的客户已经部分开始部署了。举一个案例,为主机场提供配套设备的一家企业。它的规模不算很大,大概有300多个设计师,因为要和主机厂对接,300多个设计师如果用传统的图形工作站,企业每年做软件的正版维护花费大概在8000万到1亿。为什么这么高呢?因为如果用传统的图形工作站,每个设计师都要配备相关的软件,而且软件都得是正版的,才能保证它的数据跟主机厂的同步。而且不知道这些设计师对这些软件的调用、使用如何,是不是一天8小时、10个小时、12个小时都在用?后来NVIDIA vGPU解决方案得到认可,企业觉得可以替换掉工作站以便数据安全、协同以及更好的整合资源。在实践过程当中,考虑到如何让这些工具软件、设计软件有更好的经济效益,是不是300个人就要买300多个license,他们又使用了额外的一个功能——加了一个必要的应用开发之后,以鼠标停滞一定时间来设计,可以查看设计师到底对这些软件的使用情况如何。统计下来发现设计师每天有效的工作时间大概两三个小时。这意味着在软件的调用上,没有必要为每一个设计师都配备License,成本节省很可观。

马庆胜表示,GPU虚拟化是软件,依托于GPU硬件,由于稳定而强大的底层GPU的硬件,所以NVIDIA的软件在快速迭代下也能保证稳定性。未来,NVIDIA还将继续和VMware密切合作,充分发挥双方的优势共同满足市场的需要。’0%U��!�