随着AI技术的快速发展,对GPU的需求也日益增加;但是,在实际生产环境中,受限于业务的模型特点及SLA等,GPU利用率普遍比较低,硬件算力被严重浪费。在这种情况下,GPU隔离能力对于最大化利用硬件资源就至关重要,本文基于NVIDIA场景,通过分析阐述业内隔离技术方案,引出他们的优势与缺陷,进而提出B站在隔离技术上的改进思路。