在2025 AI容器应用落地与发展论坛上,华为副总裁、数据存储产品线总裁周跃峰博士发布了AI容器技术——Flex:AI。华为联合上海交通大学、西安交通大学、厦门大学共同宣布产学合作成果将开源。此次发布的Flex:AI XPU Pooling和调度软件基于Kubernetes容器编排平台构建。通过对GPU、NPU等智能计算资源的精细化管理和智能调度,实现AI工作负载与计算资源的匹配,大幅提高算力利用率。当前AI产业的快速发展引发了对算力的巨大需求,但全球算力资源利用率低的问题更加突出。业内人士表示,公司平均利用率行业资源利用率仅为30%~40%,甚至更少。小模型任务独占整卡,导致资源闲置,大模型任务单机算力不足无法支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态。如何唤醒并高效利用计算集群的资源,成为业界面临的难题。容器技术作为一种轻量级虚拟化技术,可以将模型代码和运行环境打包成独立的镜像,实现无缝的跨PL迁移,并按需挂载GPU和NPU计算资源,提高集群整体资源利用率。 Gartner 分析师预测,到 2027 年,超过 75% 的人工智能工作负载将使用容器技术部署和运行。在AI容器领域,多家企业都推出了相关产品。例如,英伟达收购了以色列人工智能公司 Run: AI for7亿美元。公司核心产品基于Kubernetes构建,用于调度GPU计算资源,优化资源利用率,使深度学习训练和推理任务高效运行。 Flex:华为发布并开源的AI XPU Pooling和调度软件,在虚拟化和智能调度方面取得了突破。针对AI小模型及推广训练场景中“一卡跑单任务”的资源浪费问题,华为与上海交通大学联合开发了XPU Pooling框架,可将单个GPU或NPU算力卡划分为多个虚拟计算单元,粒度精度可达10%。该技术允许单张卡同时承载许多人工智能工作负载。通过弹性灵活的资源分离技术,可以按需分割算力单元,提高算力的整体利用率。在2025 AI容器应用实施与发展论坛上,华为副总裁、数据存储产品线总裁周跃峰博士发布了AI容器

