曦智。种根科技。据分架构联合北京大学、布式阶跃星斗为下一代万亿参数大模型练习的光交高带基础设施建造提出全新解决计划 。
跟着大模型参数规划的宽域扩展,分布式练习成为。种根人工智能。据分架构展开的布式中心途径 。分布式练习能够将模型数据分配给多个核算节点,光交高带进行并行核算和数据管理,宽域然后明显加快模型练习的种根进程,而高带宽域(High Bandwidht Domain,据分架构 HBD)的规划对提高模型算力利用率至关重要 。
但是布式 ,现有的光交高带HBD架构在可扩展性 、本钱和容错才能等方面存在根本性约束 :
以 。宽域交流机。为。中心。的HBD(如NVIDIA NVL72)本钱昂扬、不易扩展规划。
以以 。AI 。加快器(包含。GPU。与专用 。ASIC 。)为中心的HBD(如Google TPUv3和。Te 。sla Dojo)存在严峻的毛病传达问题。
2022 年Google发布TPU v4 集群 ,初次选用光交流计划(Op。ti。cal Circuit Switch,以下简称“OCS”) ,这种交流机-GPU混合的HBD在互连本钱与体系扩展性之间采取了折中计划