据blogs.nvidia.com报道,Emerald AI联合NVIDIA、美国电力研究院(EPRI)、英国国家电网(National Grid)及Nebius,在伦敦Nebius AI工厂成功验证“功率柔性”AI工厂技术——该工厂在模拟欧洲杯2020英格兰对德国比赛期间的“电视峰值”(TV pickup)场景中,实时响应指令,将96块NVIDIA Blackwell Ultra GPU集群功耗动态下调,全程保持高优先级AI任务满吞吐运行,并实现100%对齐EPRI与National Grid下达的200多个功率目标。
从“烧水高峰”到电网缓冲器
2020年欧洲杯英格兰对阵德国的16强赛中场休息时,数百万英国观众同步打开电水壶,导致英国国家电网在数分钟内出现约1吉瓦(GW)的瞬时负荷激增——相当于一座标准核电站的平均输出。此类突发性负荷波动正随AI数据中心等新型大用户接入而加剧。传统应对方式依赖长期、昂贵的电网基础设施扩容;而Emerald AI提出的解决方案是让AI工厂本身成为可调度的“柔性负载”:在电网承压时自主降低功耗,在低谷期恢复算力,从而缓解系统压力。
全栈验证:不止GPU,覆盖CPU与整机IT设备
此次伦敦试验基于Nebius新建的AI工厂,其硬件架构采用NVIDIA Blackwell Ultra GPU集群(共96块)与NVIDIA Quantum-X800 InfiniBand互连平台,并通过NVIDIA系统管理接口(nvidia-smi)获取秒级精度的GPU功耗遥测数据。与此前在美国亚利桑那、弗吉尼亚和伊利诺伊州开展的概念验证不同,本次测试首次在英国落地,且范围更广:不仅监测GPU功耗,还纳入CPU及全部配套IT设备的总功耗,形成对AI工厂整体电力行为的完整建模。
“不降性能”的柔性调节
在模拟“电视峰值”场景中,当系统预判数百万台电水壶即将启动时,Emerald AI Conductor平台即时触发调控策略:自动放缓非关键AI训练任务,同时保障推理等高优先级工作负载维持峰值吞吐量。整个过程未造成任何业务中断。National Grid集团首席战略官Steve Smith指出:“我们进行了迄今美国以外最全面的测试……已证实该技术的实际价值。”
加速AI基建落地的关键路径
当前,伦敦电网面临核心瓶颈:大型新用户(如AI工厂)接入需等待漫长的变电站升级与线路改造,周期常达数年。功率柔性技术使AI工厂可直接接入现有配网,无需等待基建完工。“借助这项技术,AI工厂不再是电网负担,而成为友好、主动的电网资产,”Emerald AI创始人兼CEO Varun Sivaram表示,“同时,AI工厂自身也能大幅缩短并网周期,快速获得电力供应。”
这一模式对全球供应链从业者具有现实意义:随着中国AI芯片企业、云服务商及智算中心加速出海,尤其在欧洲布局AI算力设施,其电力接入效率与合规成本直接受制于当地电网弹性。英国国家电网明确指出,尽管英国数据中心规模无法比肩美国,但“按国土面积计算,英国AI算力潜力可观”,且已吸引多家国际超大规模云厂商(hyperscalers)表达投资兴趣。柔性用电能力将成为中国企业在欧建设AI工厂时提升审批通过率、降低前期资本支出(CAPEX)与运营成本(OPEX)的关键技术杠杆。
目前,Emerald AI与NVIDIA已完成四轮示范,下一步将推进至真实商业部署阶段——位于弗吉尼亚州的Aurora AI工厂预计于今年投入运营,将成为首个规模化应用功率柔性技术的AI生产基地。
来源:blogs.nvidia.com
本文编译自海外媒体报道,由 SCI.AI 编辑团队整理发布。










