E X P
  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    在上个月举行的HotChips 33上,IBM公布了其下一代Z系列处理器“Telum”。这款处理器采用了全新的内核架构,针对AI加速做了优化。其配置了8核16线程,频率超过5GHz,采用了三星7nm工艺制造,核心面积为530平方毫米,集成了225亿个晶体管,拥有全新的分支预测、缓存和多芯片一致性互连。

    IBM的Z系列处理器以拥有大型L3缓存而出名,并有单独的全局L4缓存,可作为多个处理器之间的缓存。不过在Telum上,不但没有了L4缓存,而且L3缓存也没有了。要知道无论英特尔还是AMD,现在都尽可能增大L3缓存容量或增加L4缓存以提高性能,比如在AMD采用3D垂直缓存(3D V-Cache)技术的Zen 3架构桌面处理器,为每个CCD带来额外的64MB 7nm SRAM缓存。

    近日,Anandtech发表了一篇文章,讨论了Telum的缓存架构。

    现代的处理器普遍都有多级缓存,至于为什么会这样,可以看我们《超能课堂(133):为什么CPU缓存会分为L1、L2、L3?》大概了解一下。简单来说,越靠近执行端口的缓存越小但越快(比如L1),缓存越多且越大那么访问所需的周期就越长(比如L3)。缓存除了大小,延迟也很重要,通常缓存越大延迟越大,缓存命中率也会更低。

    为了更有效利用缓存,芯片设计公司需要分析这款处理器将用于哪方面的工作负载,以提高设计的效率。IBM的产品一般都是大型主机使用,大多是政府或银行这样的客户,对安全性和稳定性极高,这些产品都有故障安全和故障转移功能。

    IBM在上一代Z15产品上,基本单元是一个由五个模块构成的系统,其中四个是计算模块(CP),一个是控制模块(SC)。四个计算模块每个有12个内核和256MB共享的L3缓存,核心频率为5.2 GHz,面积为696平方毫米。四个计算模块两两配对,各自与控制模块相连。控制模块拥有960MB的L4缓存,并与四个计算模块共享。Z15采用了IBM和GlobalFoundries联合研发的14nm FinFET SOI特殊工艺制造,L1和L2缓存与核心频率一样都是5.2 GHz,L3和L4缓存则是半速的2.6 GHz。

    这意味着单个IBM Z15系统是25块696平方毫米的芯片组成,共有20 x 256MB的L3 缓存,还有5 x 960MB的L4缓存,以全对全拓扑连接。

    IBM没有将新一代产品称为Z16,而且称为Telum,可能是因为对缓存的采用了不同的处理方法。Telum采用三星7nm工艺制造,单芯片拥有8个核心。IBM将两个芯片封装在一起,将四个同样封装的处理器组成一个单元,然后将四个同样的单元组成一个系统,整个系统共有32个芯片和256个核心。

    IBM为每个核心配置了32MB的L2缓存,这比一般的处理器大得多,而且取消了核心之间共享的L3和L4缓存。一般来说,这样的设计会使得缓存有很高的访问延迟。IBM采取的方法是,通过私有物理缓存里打造共享虚拟缓存的方法解决,意思是将平时需要放置在L3缓存里的部分标记为L3缓存线存在不同核心空余的L2缓存里。

    L2和L3缓存在物理上是一致的,可以根据工作负载的需要,包含来自不同核心的L2和L3缓存线的混合数据。这意味着一个芯片8个核心里,8 x 32MB共256MB的L2缓存也可以视为“虚拟”L3缓存,采用双向环形互连拓扑结构。

    相似的方法IBM也用在了原来的L4缓存上,L2缓存里也可以容纳L4缓存线。从单个核心的角度来看,在一个基于Telum打造标准的系统,可以访问32MB的L2缓存,256MB的共享虚拟L3缓存,以及8GB的共享L4缓存。IBM表示,使用这种虚拟缓存的系统,每个核心的缓存相当于Z15的1.5倍,而且还改善了数据访问的平均延迟,性能提高了40%以上。

    在具体运行中如何降低延迟和保证命中率是一个非常复杂的操作,加上功耗、缓存在断电和空闲等状态下如何保证单核心工作负载的一致性,这都是IBM需要考虑的问题。可以思考一下,如果AMD使用3D V-Cache技术堆叠的不是L3缓存,而是L2缓存,同样采取虚拟L3缓存线的方式,这样的微架构对性能会有怎样的影响?

    ×
    热门文章
    1英特尔就13/14代K系列酷睿稳定性问题发表新声明:坚持官方电源配置文件
    2搭载苹果M4的新款iPad现身Geekbench:核心频率达4.4GHz,性能提升明显
    3Minisforum推出S100电脑棒:搭载Intel N100,可选PD或者PoE供电
    4DXOMARK公布华为 Pura 70 Ultra影像系统评测结果,总分163位列榜单第一
    5英特尔Arrow Lake-S配置曝光:Core Ultra 200系列最高8P+16E,共13款
    6Panther Lake处理器亮相:未来的酷睿Ultra 300,配备GT3和GT2两种核显
    7华硕推出ProArt PA34VCNV显示器:曲率3800R,针对专业视频剪辑师设计
    8x86处理器2024Q1市场份额报告:AMD在桌面和服务器市场持续推进
    9苹果不再标配电源适配器,涉及英国和欧盟地区销售的新款iPad Pro/Air
    已有 3 条评论,共 48 人参与。
    登录快速注册 后发表评论
    • 这些评论亮了
    • 终结之谷瀑布教授 2021-09-06 15:03    |  加入黑名单

      这种设计对分支预测要求极高,只有大型机这种,程序做过专门优化的才能有这种效果。
      像民用,运行的程序千奇百怪,水平参差不齐,动不动就申请一大堆内存,你cache压不过就中断

      支持(39)  |   反对(0)  |   举报  |   回复

      3#

    • chnhi博士 2021-09-06 13:48    |  加入黑名单

      如果是重度多线程负载,岂不是相当于没有l3可用了。。。ibm那种应该不存在这么多核心都满载,家用的就不一定了。。。

      支持(0)  |   反对(1)  |   举报  |   回复

      2#

    • vigo93终极杀人王 2021-09-06 12:51    |  加入黑名单

      有钱任性 L2缓存面积比核心还大

      已有2次举报

      支持(2)  |   反对(1)  |   举报  |   回复

      1#

    提示:本页有 3 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明