导读:智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体, 智能算力需求激增推动计算与网络基础设施建设不断布局。
AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力, 网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键。
智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算;中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点。
通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、Al芯片等人工智能芯片为主, 通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显。
免责声明:
来源: 中国移动,数智观察推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表数知观察立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!