当前位置: 首页 > 服务器 > 品牌厂商 > Intel服务器 > 基于Infiniband的英特尔True Scale Fabric架构

基于Infiniband的英特尔True Scale Fabric架构

2014-07-24 17:05 来源:风信网 作者:末信 人气指数: 我要评论

当前市场上主要有两种类型的 InfiniBand 架构。传统 InfiniBand 架构创建于本世纪初期,当时设计用作企业数据中心的通道互联。然而,需要需求的发展,这一传统 InfiniBand 架构及其卸载主机适配器和 Verbs 设计必须针对 HPC/MPI市场进行改进。英特尔® True Scale Fabric 是 InfiniBand 的高性能计算增强版本。在设计英特尔® True Scale Fabric 之时,英特尔就已经确定高性能计算将会成为 InfiniBand 结构的主要市场。 英特尔® True Scale Fabric 经过了专门构建,可运行 HPC/MPI 应用,并可借助其高密度的多核实施最大限度地利用当前最新的处理器技术。

这两代 InfiniBand 架构在处理协议的方法方面截然不同。英特尔® True Scale Fabric 架构基于无连接设计。这种方法不会在节点/内核/进程之间建立在适配器的高速缓存中进行维护的连接地址信息。传统 InfiniBand 设计于上世纪晚期,使用了卸载实施和一个相当庞大的名为 Verbs 的协议控制库。在传统 InfiniBand 与 Offload/Verbs 实施中,寻址/状态信息被保存在主机适配器的高速缓存中,与之不同的是,英特尔® True Scale Fabric 采用了无连接设计,能够确保在高性能计算集群扩展过程中不会发生连接状态高速缓存失误情况。在 Offload/Verbs 实施中,当发生高速缓存失误时,地址信息必须通过 PCle 总线从主内存中获取,从而导致对性能产生极大影响,尤其当应用在大型集群中进行扩展时影响更为严重。英特尔® True Scale Fabric 架构采用了MPI 信息语义标签匹配方法,因而消除了潜在的地址高速缓存失误可能性。该实施为在包含大量节点/内核的集群中扩展性能提供了极大可能性,同时能够在应用跨集群进行扩展时保持较低的端到端延迟。

英特尔® True Scale Fabric 架构的创新主机设计采用了经高性能计算优化的库,该库名为 PSM(性能扩展消息库),专门面向 MPI 通信。PSM 是一种专为优化 MPI 性能需求而构建的“轻型”库。它基于语义标签匹配而构建,在概念上类似于高性能计算互联先锋产品 Myricom® 和 Quadrics® 所用的方法。不同于传统 Verbs 实施,英特尔® True Scale Fabric的 PSM 对主机驱动程序与主机通道适配器之间的职责进行了划分。在 PSM 实施中,主机驱动程序直接执行 InfiniBand传输层,从而完全消除了主机上的重型 Verbs 接口和主机通道适配器卸载处理器/微定序器中的任意传输层瓶颈。这使得 PSM 及其 On-Load 方法非常适合利用当前的高性能、高密度多核处理器。

衡量高性能计算性能的关键标准是 MPI 消息传递频率、端到端延迟、集合性能和应用性能。在这些领域进行的测试显示,与更为传统的 InfiniBand 架构相比,英特尔® True Scale Fabric On-Load InfiniBand 架构及其 PSM 实施具有更好的可扩展性、更快的信息处理速度和更低的延迟。

MPI 消息传递频率

对大多数高性能计算应用而言,MPI 信息吞吐量是决定整体应用性能与可扩展性的关键因素。当对 MPI 应用进行扩展时,其消息传递频率将以更快的速度增长,这一点在小容量信息中表现得尤为明显。与传统 InfiniBand 产品相比,英特尔® True Scale Fabric 架构提供了更高的信息吞吐量。

基于Infiniband的英特尔True Scale Fabric架构

通信依赖模型

基于Infiniband的英特尔True Scale Fabric架构

处理器依赖模型

图 1. 面向小型/通信依赖模型和大型/处理器依赖模型的消息传递频率概况

图 1 中所示的图表全面显示了随着应用在集群中进行扩展,MPI 消息传递频率流量的增长。这两种模型的高性能计算区域中产生了 98% 的信息。高性能计算区域中的互联性能对整体应用性能而言至关重要。左图高性能计算区域中所含的 98% 的信息其大小为 4K 字节或更小。右侧模型的高性能计算区域显示,其 98% 的信息由 65K 字节大小的信息组成。

需要注意的是,对于两种模型而言,当集群从 8 节点扩展至 16 节点再到 32 节点时,64 字节信息的消息传递频率出现了大幅增长。对于大小为 Eddy_417K 64 字节的信息,当集群从 16 节点扩展至 32 节点时,MPI 信息的增长超过了 250%,这意味着 64 字节信息现在占所有信息的 90% 以上。对于 Truck_111m 模型,当集群从 16 节点扩展至 32节点时,MPI 消息传递频率增长了 235%,其中,64 字节信息占所有信息流量的 64%。大规模高效处理极小型消息的互联能力是决定应用扩展性能的一个关键因素。

测量主机消息传递频率吞吐量的权威测试是俄亥俄州立大学(OSU)的 MPI 消息传递频率测试。消息传递频率测试评估了多组进程之间的总体单向消息传递频率。在等待接收器的回复之前,每个发送进程会将固定数量的信息连续发送到配对接收进程。此进程需重复进行多次迭代。

该基准测试的目标是确定两个节点间的消息传递频率,以及运行于每个节点之上可配置的进程数量。注:这是一项测试,图 2 中的结果基于非合并的消息传递频率性能。随着消息传递频率成为公认的衡量高性能计算性能的重要指标,技术提供商希望以最好的方式来描述其产品。人为合并可提高整体消息传递频率,但这需要将一连串信息发送到另一个进程(仅限一个),而这不是典型的 MPI 进程间信息传递模式。此外,合并过程还增加了交易延迟,这是由于发送进程必须等待并决定是否按原有模式发送信息包,或者等待其他信息以将其添加至信息包。

基于Infiniband的英特尔True Scale Fabric架构

图 2. Offload/Verbs 与 On-load/PSM 的消息传递频率对比(采用 MVAPICH)

图 2 显示了基于传统 InfiniBand 的 Offload/Verbs 架构“达到极限”时的传递速度是每秒传递约 1,000 万条信息。更重要的是,在处理器内核数量超过四个后,Offload/Verbs 解决方案的性能会随之下降。相比之下,针对高性能计算优化的英特尔® True Scale Fabric 及其 On-Load/PSM 架构在 16 个内核时提供的信息吞吐量比 Offload/Verbs 架构高出多至17 倍。

主要发现:

• 主机适配器在扩展过程中每秒获得了更多的信息。

• Offload/Verbs 实施在四内核时的性能最高。

• 英特尔® True Scale Fabric QDR-80 提供了近乎线性的扩展—每秒约 6,000 万条信息。

端到端延迟性能

延迟,尤其是端到端延迟,是另一种影响高性能计算应用性能与扩展能力的关键决定因素。英特尔® True Scale Fabric的增强型高性能计算架构提供了较低的端到端延迟,可确保应用在高性能计算集群中进行扩展时依然保持较低延迟。测量延迟有以下几种方法。最简单的延迟测量方法是双节点测试。图 3 显示了两种不同 InfiniBand 产品的延迟,这一延迟数据通过在 OSU 延迟测试中使用此种简单的节点到节点测试获得。

基于Infiniband的英特尔True Scale Fabric架构

图 3. 双节点延迟测试(采用 OpenMPI)

如图 3 所示,在该简单测试中,两种不同 InfiniBand 架构彼此拥有相似的延迟。问题在于,采用一组更加现实的扩展测试后延迟会发生怎样的变化?

HPCC(HPC Challenge)的一组延迟测试更能代表 HPC/MPI 在扩展过程中的延迟。本研究中使用的延迟测试决定了端到端延迟(发挥了 InfiniBand 适配器、主机 InfiniBand 堆栈和交换机的功能)。以下测试用来决定和分析 InfiniBand 架构的性能:

• 最高往复式延迟 — 用于报告诸多非同步往复式测试的最高延迟。往复式测试需在尽可能多的不同处理器对之间执行。

• 自然有序环路(NOR)延迟 — 用于报告环路通信模式中获得的延迟。

• 随机排列环路(ROR)延迟 — 用于报告环形通信模式中获得的延迟。通信进程在环路中随机排列。

基于Infiniband的英特尔True Scale Fabric架构

图 4. HPCC 延迟测试(采用 OpenMPI)

图 4 总结了采用往复式、 NOR 和 ROR 测试在 16 个节点中获得的 HPCC 延迟结果。第四组柱形条是三种测试的平均值。在每个测试中,英特尔® True Scale InfiniBand 架构均获得了比同类产品显著降低的延迟。随机排列环路延迟测试显示的性能差异最大;True Scale 结构具有高出同类产品五倍的延迟优势。True Scale 平均延迟比传统 InfiniBand 架构低 70% 以上,即使传统 InfiniBand 架构以 FDR 速度运行也不例外。

主要发现:

• 延迟是影响大多数 MPI 应用性能的关键因素。

• 与采用传统 InfiniBand 设计的产品(以 FDR 速度运行)相比,英特尔® True Scale Fabric(以 QDR 运行)凭借其独特设计提供了更低的延迟。

• 根据测试的不同,英特尔® True Scale Fabric 拥有 20% 到 82% 的延迟优势。

• 英特尔® True Scale Fabric 的平均延迟优势为 72%。

集合性能

集合操作是并行计算领域中的一个概念,其中,数据通过多个节点进行同步发送或接收。MPI API 中的集合功能包括一个进程组(可以是整个进程池或程序定义子集)中所有进程之间的通信。这些类型的调用通常用于大型分布式计算的开始或结尾,其中,每个处理器运行一部分的数据,之后通过整合得出一个结果。众所周知,集合通信操作的性能对大多数 MPI 应用的可扩展性有着极大的影响。“集合”的性质意味着当扩展至成千上万的行列(其中一行是一个 MPI 进程,通常运行于单一内核上)时,它们可能会成为瓶颈。

集合性能对扩展 MPI 应用的性能,尤其是在高性能计算集群上的扩展能力而言至关重要。出色的集合扩展性能在无需硬件集合加速的情况下也能够获得。英特尔® True Scale™ InfiniBand® 架构面向高性能计算市场进行了高度优化。借助这一重点设计,英特尔® True Scale Fabric 无需特殊的或改进的集合加速硬件或软件,即可获得集合扩展性能。

三种使用最广泛的“集合”分别是 Allreduce、Barrier 和 Broadcast。

基于Infiniband的英特尔True Scale Fabric架构

基于Infiniband的英特尔True Scale Fabric架构

基于Infiniband的英特尔True Scale Fabric架构

图 5. 集合性能(采用 OpenMPI)

如图 5 所示,英特尔® True Scale Fabric 在上述集合组中,尤其是在产生大部分 HPC/MPI 流量的高性能计算区域中显示出了出色的性能。

主要发现:

• 集合运行性能对应用的整体性能和可扩展性产生一定的影响。

• 英特尔® True Scale Fabric 架构在关键集合运行(AllReduce、Barrier 和 Broadcast)中,尤其是信息大小在高性能计算区域内部的时候显示了出色的集合性能。

应用性能

Spec MPI2007

SPEC MPI2007 性能指标评测套件评估广泛的集群的 MPI - 并行、浮点和计算密集型性能。MPI2007 是一个专门用来测量和比较高性能系统与集群的代表性性能指标评测套件。图 6 中所示的性能指标评测程序 是从原生的 MPI 并行最终用户应用开发而来,而不是 合成的性能指标评测 或 串行性能指标评测的并行版本。(http://www.spec.org/mpi)。

基于Infiniband的英特尔True Scale Fabric架构

图 6. Spec MPI2007 基准测试列表

图 7 中显示的 Spec MPI2007 测试结果比较了高性能计算集群环境的性能,其中,集群中的其它组件都保持不变,除了互联技术上选用了不同的 InfiniBand 产品线。

基于Infiniband的英特尔True Scale Fabric架构

图 7. Spec MPI2007 基准测试结果(采用 Open/MPI)

与更为传统的 InfiniBand 产品相比,英特尔® True Scale Fabric 凭借其增强型高性能计算架构,在 Spec MPI2007 应用套件中显示了出色的性能。在图 7 中,上述每个应用测试的百分比均是英特尔® True Scale Fabric on-load/PSM 架构与传统Offload/Verbs 之间的性能差。第一个百分比是英特尔 QDR-40,第二个百分比是 QDR-80;其中,蓝色代表使用英特尔®True Scale Fabric on-load/PSM 架构获得的更高性能。综上所述,英特尔 QDR-40 在12 个测试中有 7 个显示了更高的性能,而 QDR-80 在 12 个测试中有 10 个有着更高性能。

主要发现:

• 英特尔® True Scale Fabric QDR-40 显示了平均 11% 的性能优势。

• QDR-80 的平均性能优势为 18%。

结论

互联架构对集群性能和运行于集群上的应用有着重大影响。英特尔® True Scale Fabric 主机与交换机技术提供的互联基础设施能够最大限度地提升高性能计算集群的整体性能。英特尔® True Scale Fabric 架构凭借其 On-Load 协议处理引擎、无连接通讯模式和轻型语义 PSM 接口提供了一个优化的环境,可大幅提升 MPI 应用的性能。随着高性能计算集群的应用范围和规模的快速扩展,英特尔® True Scale Fabric 架构与技术通过消除适配器与交换机瓶颈,可帮助您从计算资源投资中获得最大收益。

附录 1 — 测试配置信息

On-Load/PSM 配置

地点: 英国斯温顿,英特尔 HPC 实验室,16 个节点。

服务器:每台: 两枚英特尔® 至强® 处理器 E5-2670

- 处理器速度 — 2.60GHz

- 内存 — 32GB 1666MHz DDR3

CPU 设置: 睿频

互联: QDR-40 与 QDR-80 英特尔® True Scale Fabric(2xQLE7340)、1x12300 英特尔® True Scale Fabric

Fabric 36 端口交换机

IB 交换机固件: 7.0.1.0.43

操作系统: RHEL6.2 内核 — 2.6.32-220.el6.x86_64

IB 堆栈: IFS 7.1.0.0.55 with ib_qib from PR 120677 build qib-qofed-1.5.4.1_120677

编译器: gcc + Intel CC Version 12.1.3.293 Build 20120212

数学库: MKL

MPI: 每个测试各不相同

测试方法: 开箱即用测试

Offload/Verbs 配置

地点: 英国斯温顿,英特尔 HPC 实验室,16 个节点。

服务器:每台: 两枚英特尔® 至强® 处理器 E5 2680

- 处理器速度 — 2.70GHz

- 内存 — 32GB 1666MHz DDR3

CPU 设置: 睿频

互联: 单轨 Mellanox FDR MT4099 双端口(MCX354A-FCBT)、1 x SX6036 Mellanox FDR 36 端口交

换机

IB 交换机固件: 2.10.600

操作系统: RHEL6.2 内核 — 2.6.32-220.el6.x86_64

IB 堆栈: mlnx-ofa_kernel-1.5.3-OFED.1.5.3.3.0.0(options mlx4_core log_num_mtt=21

og_mtts_per_seg=7)

编译器: gcc + Intel CC Version 12.1.3.293 Build 20120212

数学库: MKL

MPI: 每个测试各不相同

测试方法: 开箱即用测试

大家感兴趣的内容
小伙伴最爱的新闻
小伙伴还关注了以下信息
小伙伴关注的焦点

小伙伴都在关注的热门词

芈月传 老司机玩法 萌乐网 黑科技 坐骑揭秘 三国令 铁血皇城 竞技场攻略 书剑恩仇录 披风玩法 装备强化攻略 野外BOSS玩法 全网曝光 赤壁传说 半回合制国 ACT 哥们网 天书世界 奇珍商城 热血战歌 传奇宝藏抽奖 门徒 范伟打天下 打开方式 门徒获取玩法 三大萌宠简介 新手攻略 挂机系统简介 材料副本 大海战 鸵鸟 大黑 激情玩法 门徒战力提升 万世 强化属性 上古降魔 提升战力 装备攻略 九阴绝学 品质推荐 老干妈 激战来袭 大黑游戏 新服亮点 福利多多 画江山 资料片 玩家 九阴真经 江湖儿女 真实场景 现实 虚拟 随机副本 风色轨迹 听天由命 ppwan 神助攻 武林秘药 激活八大脉门 九天劫变 猎命格 天问 大型PVP 花千骨 激战更尽兴 网易mumu 手游玩家 安卓模拟器 安卓 单挑群战 武侠传说 女神 孙尚香专访 胸猛抱团 新游 占山为王 跨服城战 蜀山战纪 剑雨江湖 攻略 实时VR交互 七大女神代言 酷炫走江湖 世界四大杀手 玩家专访 三国经典 大制作 好玩网页游戏 盘点 宇宙霸主 境界玩法 莽荒纪 勇闯难关 镜像副本 荒漠霸主 装备精通 三大战役 鹌小彦奇谈