近日,NextPlatform根据中国并行计算机工程与技术国家研究中心(NRCPC)的一份文件,分析了中国的百亿亿次(E级)超级计算机三个提案之一的申威HPC架构,以及申威多核混合CPU架构 。
NRCPC对近年来超算系统的发展趋势进行了研究,发现由于摩尔定律和登纳德缩放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情况下提高超算的性能变得异常困难,整个系统架构的复杂性会呈指数级增长。从2008年到2019年,顶尖超算的性能有所提高,这主要是由于内核数的增加,多了44倍。比起重新设计复杂的架构,不如扩展现有的架构设计。
2016年推出的神威太湖之光超算使用了40960个国产申威SW26010处理器,采用混合架构。该系统的Linpack性能(Rmax)为93,014.6 TFLOPS, (Rpeak)为125,436 TFLOPS。
申威SW26010处理器是基于自主研发的64位RISC架构,具有4个集群(CG)和一个协议处理单元(PPU)。每个集群有一个MPE(management processing element), MPE是一个超标量乱序核,具有256位向量引擎、32KB/32KB L1指令/数据缓存、256KB L2缓存。它还集成了64个计算处理元素(CPE),具有相同的256位向量引擎以及64KB快速数据存储和16KB指令存储。CPE以8x8阵列形式组成,使用网状网络相互连接。
每个CG都有其自己的DDR3内存控制器,具有自己的地址空间,使用9个内存模块,8GB内存,实现专有的ECC。CG通过类似于环形总线的片上网络(NoC)进行互连,并且处理器本身通过系统互连(SI)总线连接至系统的其余部分。
处理器的工作频率为1.45GHz,可能采用台积电28nm工艺制造。整个系统拥有40960个以上的节点,总计1.25PB内存。
从NRCPC的角度来看,可以同时扩展神威系统和申威CPU架构,以构建性能约为1 ExaFLOPS的超级计算机。
新的申威将具备8个CG群集,比原来的4个翻了一倍,CG架构不变,仍然是一个MPE和64个CPE组成。使处理器数量至少增加一倍,达到80000个以上,同时CPE和MPE将支持512位向量指令,这样处理器将提供共12 FP64 TFLOPS的性能。下一代的神威超算大约1个FP64 ExaFLOPS,2个FP32 ExaFLOPS以及4个FP16 ExaFLOPS峰值性能。考虑到效率(70%)问题,实际性能大约是700 PFLOPS,也会比现有的神威太湖之光超算快了7.5倍,内存带宽会增加7倍,网络带宽则增加2倍。
核心数量翻倍意味着需要更多的晶体管,这是一个不可克服的挑战。申威SW26010处理器应该是采用了台积电的28nm工艺制造,新处理器使用14nm工艺制造是很合理的猜想。目前国内只有中芯国际具有14nm工艺节点的生产能力,但一直都只是生产移动平台的SoC或者相对较小的芯片,这么复杂处理器还没试过。如果采用28nm工艺制造,并非不可行,但功耗和散热方面需要更多地进行处理。
事实上NRCPC的文章里并没有提及整个系统的功耗目标,目前神威太湖之光超算的功率是15371千瓦,而目前排名第一的Fugaku超算消耗的功率为29899千瓦,约为两倍。
另一个问题是中芯国际被美国商务部列入了“实体清单”,无论是制造上需要的化学品还是配件都更难获取了,这些都会影响代工。当然也可以向台积电或者三星下单,不过同样也会面临被列入“实体清单”的危险,可以说是一个冒险的选择。
从这点上看,如果向台积电下单,可以直接尝试使用7nm甚至6nm的工艺制造。
作为国内最早的E级超算计划,为了在Linpack基准测试中达到1 FP64 ExaFLOPS Rpeak性能,NRCPC将增加其处理器中的核心数量,增加对512位矢量指令的支持。最终结果是处理器的核心数量翻倍,以及使用全新的内存系统对其进行支持,并计划采用新工艺制造。
国内的工程师已经可以开发出包括CPU,DRAM,NAND和其他组件在内的尖端超级计算机,但进行中的亿亿级超算系统计划仍存在最后的疑问,最终将取决于制造的工艺技术。
超能网友博士 2021-02-20 16:37 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
已有5次举报支持(50) | 反对(4) | 举报 | 回复
1#
我匿名了 2021-02-21 14:45
支持(4) | 反对(1) | 举报 | 回复
6#
超能网友博士 2021-02-21 10:47 | 加入黑名单
5#
我匿名了 2021-02-21 10:23
该评论年代久远,荒废失修,暂不可见。
已有2次举报支持(5) | 反对(1) | 举报 | 回复
4#
超能网友高中生 2021-02-21 09:48 | 加入黑名单
3#
超能网友终极杀人王 2021-02-20 20:41 | 加入黑名单
2#
提示:本页有 3 个评论因未通过审核而被隐藏