
各位 V 友,小弟不才。公司最近想搞一堆显卡,想问一下有没有 V 友知道业界怎么做本地 GPU 虚拟化的,了解到阿里有 cGPU 技术。另外了解到之江实验室也有很多的本地卡,如果不是对外出售云服务,只是对内各部门使用,需要做 GPU 的虚拟化吗? https://www.nvidia.cn/data-center/graphics-cards-for-virtualization/ https://blog.csdn.net/HaoZiHuang/article/details/126972625
1 leixx Aug 1, 2023 mark ,最近公司也在开展 GPU 的项目,学习一下 |
2 zyqv2 Aug 1, 2023 via iPhone NVIDIA 的 grid 驱动,vgpu license 收费;或者 kvm 的 virgl ,有性能损耗 |
3 ysc3839 Aug 1, 2023 via Android 内部使用的话 Docker 就行了吧,虚拟机的 GPU 虚拟化好像都要收费的 |
4 leixx Aug 1, 2023 我们是有两个大佬,一个大佬搞内核,一个大佬搞 k8s GPU 调度,我猜想虚拟化也是底层有一套接口?然后通过 hook 的方式,接过来,走自己的逻辑? 不过虚拟化收益高吗?一般直接跑满了。 |
5 defunct9 Aug 1, 2023 kvm |
6 zzz22333 Aug 1, 2023 virtio-gpu 是一种方案,公司同事最近也在搞 |
7 Yiukam Aug 1, 2023 需求不大,K8S/Docker 就好了,某地方能源集和下的券企就是玩的。玩 LLM 的,推理所,就是例多卡或者裸就好了。效率相差不大。 我自己部也是裸+Docker 的合。 |
8 kobe718 Aug 1, 2023 gpu 虚拟化需要 gpu 硬件支持 sriov 以前 nvidia 有专门用于虚拟化的显卡叫 grid 系列,可以根据不同的 profile 来把一块高端卡分成好几块低端卡来 但是普通的民用卡、计算卡都没有开放 sr-iov 接口 amd 的好像有见说开放 但没具体研究过 |
9 cczh678 Aug 1, 2023 大哥应该是为公司的实际立项的项目来做方案的选型吧?有一家做虚拟化 GPU 的公司,趋动科技,可以了解下他们的产品,我们双方是合作关系。 |
10 4179e1 Aug 1, 2023 A100 或者 H100 的话有 MIG https://www.nvidia.com/en-us/technologies/multi-instance-gpu/ |
12 495414572 OP 谢谢巨佬们指路,虽然我感觉这个 GPU 虚拟化的需求不一定大,小弟先去研究一下 |
13 kennylam777 Aug 1, 2023 via Android 不分限的,用 k8s 分配 gpu 源已足,不必像 cloud 弄成 multi tenants 的,RTX 一家用品也有化的限制 https://github.com/NVIDIA/k8s-device-plugin |
14 rationa1cuzz Aug 1, 2023 |
15 stoneabc Aug 1, 2023 有几种: 1. NVIDIA 官方:VGPU ,这个最趋向于用户理想的虚拟化,一个 GPU 虚拟出多个 vgpu ,通给不同的虚拟机,呈现的和真实 GPU 没啥差异,图形渲染+通用计算都支持。缺点是 license 要钱。 2. 还是 NVIDIA 官方:MIG ,现在应该只有 A100/H100/A30 支持,物理上的切分,缺点是能切分的规格很有限,只支持通用计算。 3. 各类第三方厂商的 hook 类型“虚拟化”:阿里 cGPU ,腾讯 qGPU ,驱动等等,都是 hook GPU 驱动,再基于容器做切分,只支持通用计算,原理有点类似 vGPU ,好处是不用钱,切分非常灵活。 不想搞云上的,那就用 NVIDIA 官方方案,或者像趋动这种三方厂商,不建议自己折腾。 |
16 FelixChenddd Aug 3, 2023 什么卡,图形卡还是计算卡 |