Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベクトル型スーパーコンピュータ「AOBA-S」の性能評価

Keichi Takahashi
September 26, 2023

 ベクトル型スーパーコンピュータ「AOBA-S」の性能評価

高橋 慧智, 藤本 壮也, 長瀬 悟, 磯部 洋子, 下村 陽一, 江川 隆輔, 滝沢 寛之, ベクトル型スーパーコンピュータ「AOBA-S」の性能評価, 研究報告ハイパフォーマンスコンピューティング(HPC), 2023-HPC-191(1), 2023年9月.

http://id.nii.ac.jp/1001/00227704/

Keichi Takahashi

September 26, 2023
Tweet

More Decks by Keichi Takahashi

Other Decks in Science

Transcript

  1. ⾼橋 慧智1, 藤本 壮也2, ⻑瀬 悟2, 磯部 洋⼦2, 下村 陽⼀1, 江川 隆輔3, 滝沢 寛之1
    1東北⼤学サイバーサイエンスセンター
    2⽇本電気株式会社
    3東京電機⼤学
    ベクトル型スーパーコンピュータ「AOBA-S」の
    性能評価
    第191回HPC研究会@東北⼤学 1

    View Slide

  2. 概要
    • サイバーサイエンスセンターでは2023年8⽉よりスーパーコンピュータAOBA-S
    の本格運⽤を開始
    • AOBA-SはNEC製の最新世代Vector Engine (VE30) プロセッサを搭載した,
    世界最⾼性能のベクトル型スーパーコンピュータ (2023年9⽉現在)
    • 本発表では,サービス提供開始前に実施した以下の性能評価の結果を報告
    • VE30プロセッサの単体性能
    • システム全体としての性能
    • 実アプリ性能 (SPEChpc)
    第191回HPC研究会@東北⼤学 2

    View Slide

  3. AOBA-1.5の概要
    第191回HPC研究会@東北⼤学 3
    InfiniBand NDR 200G
    InfiniBand HDR 200G
    Ethernet 10G
    AOBA-S
    AOBA-A AOBA-B AOBA-A/B ストレージ
    AOBA-S ストレージ
    21.05 PFLOP/s
    9.97 PB/s
    1.48 PFLOP/s
    893 TB/s
    4.5 PB
    Lustre
    2 PB
    ScaTeFS
    279 TFLOP/s
    29 TB/s
    NEC SX-AT B401-8 x72 NEC LX406Rz-2 x68 DDN SFA7990XE
    DDN ES400NVX2
    NEC SX-AT C401-8 x504

    View Slide

  4. SX-Aurora TSUBASA
    • SX-Aurora TSUBASA (SX-AT)
    • x86であるVector Host (VH)とSXシリーズを継承するベクト
    ルプロセッサVector Engine (VE) からなるヘテロジニアスな
    システム
    • アプリはVE上で実⾏され,システムコールをホストへ「オフ
    ロード」する実⾏⽅式
    • Vector Engine (VE)
    • メモリ律速なアプリを対象とし,ベクトルアーキテクチャと⾼
    帯域幅メモリを特徴とするプロセッサ
    • 標準プログラミングモデル (MPI+OpenMP) によってプログラ
    ム可能
    • ⾼度な⾃動ベクトル化機能を備えたC/C++およびFortranコン
    パイラが利⽤可能
    第191回HPC研究会@東北⼤学 4
    Vector
    Engine
    Vector Host
    (x86)
    Vector
    Engine
    PCIe
    Switch

    InfiniBand
    HCA
    https://www.nec.com/en/global/solutions/hpc/s
    x/vector_engine.html
    RDMA
    Syscalls

    View Slide

  5. AOBA-Sの構成
    第191回HPC研究会@東北⼤学 5
    ノード単体 システム全体
    VE数 8 4,032
    VH数 1 504
    VE理論演算性能 39.28 TFLOP/s 19.79 PFLOP/s
    VEメモリ帯域幅 19.60 TB/s 9.87 PB/s
    VEメモリ容量 768 GB 378 TB
    VH理論演算性能 2.50 TFLOP/s 1.26 PFLOP/s
    VHメモリ帯域幅 0.20 TB/s 0.1 PB/s
    VHメモリ容量 256 GB 126 TB
    相互結合網 InfiniBand NDR 200G
    ストレージ Lustre 4.4 PB
    VE
    30
    AMD EPYC
    7763
    PCIe
    SW
    IB NDR
    200G
    IB NDR
    200G
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    ノード構成

    View Slide

  6. AOBA-Sの相互結合網とストレージ
    • フルバイセクションかつノン
    ブロッキングの2段Fat-treeト
    ポロジによって計算ノード,
    ストレージ,各種サーバを接

    • 計4.4 PBのLustreストレージ
    第191回HPC研究会@東北⼤学 6
    NDR Switch … NDR Switch
    NDR Switch … NDR Switch NDR Switch NDR Switch
    x16
    x16 x2
    HCA
    HCA
    HCA
    HCA

    HCA
    HCA

    32 VHs (64 HCAs)
    504 VHs (1,008 HCAs)
    Storage
    Frontend Servers

    View Slide

  7. VE30プロセッサのアーキテクチャ
    第191回HPC研究会@東北⼤学 7
    Main Memory (96 GB)
    Last-Level Cache (64 MB)
    Network on Chip (2D Mesh)
    SPU VPU
    L3 Cache (2 MB)
    6.4 TB/s
    2.45 TB/s
    410 GB/s
    410 GB/s
    16コア
    Core
    Core
    Core
    Core
    Core
    Core
    LLC
    LLC
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    HBM2E
    HBM2E
    HBM2E
    HBM2E
    HBM2E
    HBM2E

    View Slide

  8. VE20からの強化点
    • コア専有L3キャッシュ
    • L3キャッシュはソフトウェア制御に
    よってバイパスすることが可能
    • LLC内演算器
    • 各LLCバンクが加算器を内蔵すること
    でリスト総和演算をLLC内で実⾏可能
    • FP32演算性能の強化
    • VE20ではFP32データが8バイトアライ
    ンされている必要があったが,4バイト
    アラインに緩和
    第191回HPC研究会@東北⼤学 8
    VE Type 20A
    (10コアモデル)
    VE Type
    30A
    コア数 10 16
    FP64演算性能
    [TFLOP/s]
    3.07 4.91
    メモリ帯域幅 [TB/s] 1.53 2.45
    メモリ容量 [GB] 48 96
    LLC帯域幅 [TB/s] 3.0 6.4
    LLC容量 [MB] 16 64
    1.6x
    1.6x
    1.6x
    2x
    2.1x
    4x

    View Slide

  9. HPL,HPCG,姫野ベンチ,東北⼤カーネル
    プロセッサ単体性能の評価
    第191回HPC研究会@東北⼤学 9

    View Slide

  10. ⽐較対象のプロセッサ
    第191回HPC研究会@東北⼤学 10
    NEC VE
    Type 20B
    NEC VE
    Type 30A
    Fujitsu
    A64FX
    Intel Xeon
    Platinum 8368
    NVIDIA A100
    80GB PCIe
    FP64演算性能 (コア) [GFLOP/s] 307 307 70 83.2
    181 w/ TC
    90 w/o TC
    コア数 8 16 48 36 108
    FP64演算性能 (ソケット) [TFLOP/s] 2.4 4.9 3.3 3.1
    19.5 w/ TC
    9.7 w/o TC
    LLC帯域幅 [TB/s] 3.0 6.4 3.6 3.21 4.91
    LLC容量 [MB] 16 64 32 57 40
    メモリ帯域幅 [TB/s] 1.53 2.45 1.024 0.204 1.935
    メモリ容量 [MB] 48 96 32 80
    プロセスルール [nm] 16 7 7 10 7

    View Slide

  11. 基本性能の評価において⽤いたベンチマーク
    • HPL1: ピボット選択付LU分解によって密な連⽴⼀次⽅程式を求解する演算律速な
    ベンチマーク
    • BabelStream2: 実効メモリ帯域幅を計測するSTREAMベンチマークを様々なプロ
    グラミングモデルで実装したベンチマーク
    • HPCG1: 疎な連⽴⼀次⽅程式を幾何学的マルチグリッド前処理を⽤いた共役勾配
    法によって求解するメモリ律速なベンチマーク
    • 姫野ベンチ: ポワソン⽅程式をヤコビ法によって求解するメモリ律速なベンチ
    マーク
    • 東北⼤カーネル: ユーザアプリより抽出した6種のカーネル
    第191回HPC研究会@東北⼤学 11

    View Slide

  12. 基本性能 (HPLとBabelStream)
    第191回HPC研究会@東北⼤学 12
    0
    2
    4
    6
    8
    10
    12
    14
    VE20 VE30 A64FXIceLake A100
    40GB
    A100
    80GB
    0
    20
    40
    60
    80
    100
    TFLOP/s
    Efficiency [%]
    Performance Efficiency
    2.13
    4.43
    2.78
    1.83
    11.8
    12.5
    86%
    90%
    82%
    57%
    60%
    64%
    HPL
    ⾼い演算性能
    スロットリング
    による効率低下
    0
    500
    1000
    1500
    2000
    VE20 VE30 A64FXIceLake
    ×2
    A100
    40GB
    A100
    80GB
    0
    20
    40
    60
    80
    100
    GB/s
    Efficiency [%]
    Performance Efficiency
    1230
    1793
    826
    163
    1410
    1657
    80%
    72%
    81% 80%
    91%
    86%
    最も⾼いメモ
    リ帯域幅
    BabelStream

    View Slide

  13. 基本性能 (HPCGと姫野ベンチ)
    第191回HPC研究会@東北⼤学 13
    0
    100
    200
    300
    400
    500
    600
    700
    800
    900
    VE20 VE30 A64FXIceLake A100
    40GB
    A100
    80GB
    0
    5
    10
    15
    20
    GFLOP/s
    Efficiency [%]
    Performance Efficiency
    388
    837
    342
    75
    553
    634
    16%
    17%
    10%
    2.3% 2.8% 3.2%
    0
    50
    100
    150
    200
    250
    300
    VE20 VE30 A64FX IceLake A100
    40GB
    A100
    80GB
    0
    1
    2
    3
    4
    5
    6
    7
    GFLOP/s
    Efficiency [%]
    Performance Efficiency
    139
    258
    106
    29
    222
    259
    5.6%
    5.2%
    3.1%
    0.94%
    2.2%
    2.6%
    HPCG 姫野ベンチマーク
    A100 80 GBと同等 最も⾼い

    View Slide

  14. 東北⼤カーネル集
    第191回HPC研究会@東北⼤学 14
    科学分野 律速要因 VE30/VE20
    Earthquake 地震学 メモリ帯域幅 1.56x
    Turbulent Flow 流体⼒学 LLC帯域幅 2.33x
    Antenna 電波⼯学 メモリ帯域幅 1.77x
    Land Mine 電波⼯学 メモリ帯域幅 1.92x
    Turbine 流体⼒学 レイテンシ 2.40x
    Plasma プラズマ科学 レイテンシ 2.41x
    サイバーサイエンスセンターのユーザアプリから抽出した6種のカーネル
    メモリ・LLC
    帯域幅の向上
    L3CとLLC帯域
    幅の向上
    L3Cによるレイ
    テンシの短縮
    VE30 HW性能向上率
    メモリ帯域幅: 1.60x
    LLC帯域幅: 2.13x
    0.0
    0.2
    0.4
    0.6
    0.8
    1.0
    1.2
    1.4
    1.6
    1.8
    2.0
    Earthquake
    Turbulent
    Flow
    Antenna
    Land Mine
    Turbine
    Plasma
    TFLOP/s
    VE20
    VE30 w/o L3 cache
    VE30 w/ L3 cache

    View Slide

  15. HPL,HPCG,MPI,ストレージ
    システム全体の評価
    第191回HPC研究会@東北⼤学 15

    View Slide

  16. マルチノード性能 (HPL, HPCG)
    504 VH を⽤いた全系実⾏では
    • HPL: 16.33 PFLOP/s (効率82.4%)
    • HPCG: 913.1 TFLOP/s (効率4.61%)
    • 2023年6⽉版Top500リストではHPL
    は国内5位,HPCGは国内2位に相当
    • 2023年11⽉版Top500リスト登録に
    向けてパラメータ調整等のチューニ
    ングを実施予定
    第191回HPC研究会@東北⼤学 16
    10
    100
    1000
    10000
    100000
    100
    0
    20
    40
    60
    80
    100
    Performance [TFLOP/s]
    Efficiency [%]
    # of VHs
    HPL Performance
    HPCG Performance
    HPL Efficiency
    HPCG Efficiency

    View Slide

  17. MPI通信性能
    第191回HPC研究会@東北⼤学 17
    VE
    30
    AMD EPYC
    7763
    PCIe
    SW
    IB NDR
    200G
    IB NDR
    200G
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    AMD EPYC
    7763
    PCIe
    SW
    IB NDR
    200G
    IB NDR
    200G
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    VE
    30
    PCIe
    SW
    VE
    30
    InfiniBand NDR Switch
    ③同⼀PCIe
    スイッチ配下
    ②同⼀ノード配下
    ①同⼀IBスイッチ配下
    ④同⼀IBスイッチ配下 (VH間)

    View Slide

  18. MPI通信性能の測定結果
    第191回HPC研究会@東北⼤学 18
    1
    10
    100
    1000
    1 10 100 1000 10000 100000 1x106
    Latency [µs]
    Message size [B]
    VE-VE (same rack)
    VE-VE (same node)
    VE-VE (same PCIe switch)
    VH-VH (same rack)
    0.1
    1
    10
    100
    1000
    10000
    100000
    1 10 100 1000 10000 100000 1x106
    Bandwidth [MB/s]
    Message size [B]
    VE-VE (same rack)
    VE-VE (same node)
    VE-VE (same PCIe switch)
    VH-VH (same rack)
    • 同⼀PCIe SW配下: 1.51us
    • 同⼀ノード内: 1.88us
    • 同⼀ラック内: 3.87us
    GPU-awareなMPI
    とほぼ同等
    OSU Micro Benchmark 7.2,NEC MPI 3.4.0を使⽤
    • 同⼀PCIe SW配下: 23.1 GB/s
    • 同⼀ノード内: 22.7 GB/s
    • 同⼀ラック内: 23.6 GB/s
    遅延 (osu_latency) 帯域幅 (osu_bw)

    View Slide

  19. ストレージ性能 (iorとmdtest)
    第191回HPC研究会@東北⼤学 19
    20
    40
    60
    80
    100
    120
    140
    160
    180
    200
    100 1000
    Throughput [KIOps]
    # of Processes
    File creation
    File stat
    File removal
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    100 1000
    Throughput [GB/s]
    # of Processes
    Write
    Read
    読み書き性能 メタデータ性能
    ior 3.3.0を⽤い,1VEにつきior/mdtestを1プロセス起動し,1ファイル/プロセスの条件で計測.
    読み書き共にページキャッシュの効果を排除するよう設定.

    View Slide

  20. SPEChpc 2021
    実アプリを想定したベンチマーク
    第191回HPC研究会@東北⼤学 20

    View Slide

  21. SPEChpc 2021
    • SPECにより開発されているHPC分野のベンチマーク集
    • 実⾏条件:
    • VE20/30,A64FX ,IceLake-SPではMPI+OpenMP,A100では MPI+OpenACCを使⽤
    • 全てのベンチマークはソースコード改変なしで実⾏
    • 問題サイズ:
    • Tiny (9ベンチ,60GB程度のメモリ使⽤量)
    • 実⾏可能な最低ソケット数で実⾏し,使⽤したソケット数で性能を正規化
    • Large (6ベンチ, 14.5TB程度のメモリ使⽤量)
    • 先⾏研究[1]において⾏われたTACC Frontera (Intel Xeon Platinum 8280 2 基) およびJUWELS
    Booster (AMD EPYC 7402+NVIDIA A100 SXM4 40GB 4基) での測定結果と⽐較
    • 性能指標:
    • ベースラインシステム (Haswellクラスタ) に対する⾼速化率を⽐較
    第191回HPC研究会@東北⼤学 21
    [1] Brunst et al., “First Experiences in Performance Benchmarking with the New SPEChpc 2021 Suites,” CCGrid 2022.

    View Slide

  22. SPEChpc 2021 tinyサイズの性能⽐較
    • LBM, TeaLeaf, POT3DではVE30が最も性能が⾼い
    • CloverLeafとminiWeatherではVE30がA100に少し劣る
    • SPH-EXAとHPGMG-FVではVE30の性能が低い
    第191回HPC研究会@東北⼤学 22
    0
    5
    10
    15
    20
    25
    30
    35
    LBM TeaLeaf CloverLeaf POT3D SPH-EXA HPGMG-FV miniWeather
    Speedup over Baseline System
    VE20 x2
    VE30 x1
    A100 80GB x1
    A100 40GB x2
    A64FX x3
    IceLake-SP x1

    View Slide

  23. SPEChpc 2021 tinyサイズの性能分析
    • LBM, TeaLeaf, CloverLeaf, POT3D
    • メモリ律速でありVEが最も性能が⾼い
    • CloverLeafではギャザアクセスをともなうカーネルはA100より性能が低い
    • SPH-EXA
    • 8分⽊を⽤いた近傍粒⼦探索がベクトル化できない
    • 近傍粒⼦探索をホストCPUへオフロードすることにより⾼速化可能
    • HPGMG-FV
    • 最内ループのループ⻑ (32回) がVEのベクトル⻑ (倍精度で256要素) に⽐べ短い
    • ループ⼀重化によりループ⻑を拡⼤させることで⾼速化可能
    • miniWeather
    • メモリ律速なカーネルはA100より⾼速だが,演算律速なカーネルでA100に劣る
    第191回HPC研究会@東北⼤学 23

    View Slide

  24. SPEChpc 2021 largeサイズの性能⽐較
    • HPGMG-FV以外の全てのベン
    チでFronteraより⼤幅に⾼速
    • TeaLeafとPOT3DではBooster
    より⾼い性能
    • LBM, CloverLeaf,
    miniWeatherではBoosterより
    性能が低く,スケールアウト
    するにつれ差が開く傾向
    第191回HPC研究会@東北⼤学 24
    0
    20
    40
    60
    80
    100
    120
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    0
    5
    10
    15
    20
    25
    30
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    0
    20
    40
    60
    80
    100
    120
    140
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    0
    10
    20
    30
    40
    50
    60
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    0
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    0
    20
    40
    60
    80
    100
    120
    140
    160
    1000
    Speedup over baseline
    # of Sockets
    AOBA-S
    Booster
    Frontera
    LBM TeaLeaf CloverLeaf
    POT3D HPGMG-FV miniWeather

    View Slide

  25. SPEChpc 2021 largeサイズの性能分析
    第191回HPC研究会@東北⼤学 25
    0
    50
    100
    150
    200
    250
    300
    LBM
    TeaLeaf
    CloverLeaf
    POT3D
    HPGMG-FV
    miniWeather
    Runtime [s]
    Computation
    MPI Communication
    0
    50
    100
    150
    200
    250
    300
    LBM
    TeaLeaf
    CloverLeaf
    POT3D
    HPGMG-FV
    miniWeather
    Runtime [s]
    Launch Overhead Time
    Application Init Time
    Application Core Time
    Application Resid Time
    • Launch Overhead Time: スケジューラやMPIで
    費やされた起動オーバーヘッド
    • Application Init Time: アプリ内初期化処理
    • Application Core Time: メインの計算
    • Application Residual Time: その他
    スケーラビリティが悪いLBM,CloverLeaf,
    miniWeatherでは通信時間が占める割合は⼩さく,
    通信がボトルネックとはなっていない
    1400 VEでのプロファイル結果

    View Slide

  26. まとめ
    • VE30はメモリ律速のアプリケーションにおいて優れた性能を発揮
    • 新設されたL3Cや強化されたLLCが寄与し,VE20と⽐較すると理論演算性能とメ
    モリ帯域幅の向上を超える性能向上を達成
    • SPEChpc 2021ではソースコードの改変なしに,同世代のCPUやGPUと同等以上
    の性能を達成
    • ⼤規模実⾏ (400 VE〜) において他システムよりスケーラビリティが劣る場合が
    明らかになったので,さらに分析を進める
    第191回HPC研究会@東北⼤学 26

    View Slide

  27. 予備スライド
    第191回HPC研究会@東北⼤学 27

    View Slide

  28. 各プロセッサの評価に使⽤したシステム
    第191回HPC研究会@東北⼤学 28
    プロセッサ システム ノード構成 相互結合網
    VE20 AOBA-C@東北⼤
    AMD EPYC 7402P x1
    Vector Engine Type 20B x8
    InfiniBand HDR 200G x2
    VE30 試作機@NEC
    AMD EPYC 7713P x1
    Vector Engine Type 30A x8
    InfiniBand HDR 200G x2
    A64FX 不⽼Type I@名⼤ Fujitsu A64FX x1 Tofu-D
    IceLake-SP SQUID@阪⼤ Intel Xeon Platinum 8368 x2 InfiniBand HDR 200G x1
    A100 40GB SQUID@阪⼤
    Intel Xeon Platinum 8368 x2
    NVIDIA A100 40 GB x8
    InfiniBand HDR 100G x4

    View Slide

  29. コア専有L3キャッシュ
    第191回HPC研究会@東北⼤学 29
    Main Memory
    Last-Level Cache
    Network on Chip
    SPU VPU
    L3 Cache
    NoCの輻輳緩

    ソフトウェアに
    よりバイパス可
    0.0
    0.2
    0.4
    0.6
    0.8
    1.0
    1.2
    1.4
    1.6
    1.8
    2.0
    Earthquake
    Turbulent
    Flow
    Antenna
    Land Mine
    Turbine
    Plasma
    TFLOP/s
    w/o L3 cache w/ L3 cache
    VE30はソフトウェア制御可能なコア専有L3キャッシュ
    (2MB,ユニファイド,ライトスルー) を追加
    L3Cによりギャザ
    のレイテンシ縮減
    3.13倍の性能向上
    東北⼤カーネル集
    LLCの競合緩

    アクセス遅延
    の削減

    View Slide

  30. キャッシュ内演算機能
    第191回HPC研究会@東北⼤学 30
    for (int i = 0; i < n; i++) {
    y[l[i]] = y[l[i]] + x[i];
    }
    VE20ではユーザは以下から選択する必要:
    • スカラ: スカラ命令によって計算 (デフォルト)
    • ivdep: ベクトル命令のみによって計算.ユーザはl[i]が重
    複しないことを保証する必要あり.(コンパイラディレク
    ティブを使⽤)
    • list_vector: ベクトル命令によって計算し,重複部分の結
    果をスカラ命令によって補正.(コンパイラディレクティ
    ブを使⽤)
    VE30では:
    • vlfa: リスト総和演算専⽤の命令 (デフォルト)
    Core
    LLC
    Memory
    l[i] x[i]
    y[l[i]]
    各LLCバンクが
    演算器を備える
    リスト総和演算は有限要素法,粒⼦法
    等で必要となる演算パターン

    View Slide

  31. リスト総和演算専⽤ハードウェア
    第191回HPC研究会@東北⼤学 31
    0.0
    0.1
    0.2
    0.3
    0.4
    0.5
    0.6
    0.7
    0.8
    0.9
    1.0
    1 2 4 8 12 16 20 24 28 32
    GFLOP/s
    # of Overlapping Indices
    VE20 scalar
    VE20 list_vector
    VE30 scalar
    VE30 list_vector
    VE30 vlfa
    リスト総和演算を⾏うマイクロベンチマークを作成し,重複するアドレスの数を変化させながらシ
    ングルコアの性能を計測 (32個のアドレスの中でx個が重複).
    vlfaはスカラよ
    り低性能
    vlfaはlist_vector
    より3.48x⾼速
    vlfaは常にlist_vectorより⾼速であり,実アプリでは多数のアドレスが重複することは稀である
    ため,ユーザは基本的ににvlfaを選択すればよい

    View Slide

  32. 選択的L3キャッシング
    • VE30では再利⽤されるデータのみをL3
    キャッシュに選択的キャッシングさせる
    ことが可能.
    • 姫野ベンチマークにより選択的L3キャッ
    シングの効果を評価
    • a, b, c, bnd, wrk1, wrk2はストリーミングア
    クセス
    • pは再利⽤性あり (理想的には最内ループのに
    おける19ロード中18がキャッシュヒット).
    第191回HPC研究会@東北⼤学 32
    for (i=1 ; ifor (j=1 ; jfor (k=1 ; ks0 = a[0][i][j][k] * p[i+1][j ][k ]
    + a[1][i][j][k] * p[i ][j+1][k ]
    + a[2][i][j][k] * p[i ][j ][k+1]
    + b[0][i][j][k] * (p[i+1][j+1][k ] - p[i+1][j-1][k ]
    - p[i-1][j+1][k ] + p[i-1][j-1][k ])
    + b[1][i][j][k] * (p[i ][j+1][k+1] - p[i ][j-1][k+1]
    - p[i ][j+1][k-1] + p[i ][j-1][k-1])
    + b[2][i][j][k] * (p[i+1][j ][k+1] - p[i-1][j ][k+1]
    - p[i+1][j ][k-1] + p[i-1][j ][k-1])
    + c[0][i][j][k] * p[i-1][j ][k ]
    + c[1][i][j][k] * p[i ][j-1][k ]
    + c[2][i][j][k] * p[i ][j ][k-1]
    + wrk1[i][j][k];
    ss = (s0 * a[3][i][j][k] - p[i][j][k]) * bnd[i][j][k];
    wgosa += ss*ss;
    wrk2[i][j][k] = p[i][j][k] + omega * ss;
    // Copy wrk2 to wrk and sub wgosa across all ranks
    }
    姫野ベンチマークにおけるヤコビ法カーネル

    View Slide

  33. 姫野ベンチにおける選択的キャッシングの効果
    第191回HPC研究会@東北⼤学 33
    250
    255
    260
    265
    270
    275
    280
    285
    290
    Watt
    Cache all
    Bypass all
    Cache p only
    2.5
    2.6
    2.7
    2.8
    2.9
    3
    3.1
    3.2
    3.3
    GFLOP/s per Watt
    0
    100
    200
    300
    400
    500
    600
    700
    800
    900
    S M L XL
    GFLOP/s
    Problem Size
    Cache all
    Bypass all
    Cache p only
    サイズ 配列サイズ
    S 64x64x128
    M 128x128x256
    L 256x256x512
    XL 512x512x1024
    選択的キャッシ
    ングにより+6.9%
    pがL3Cに
    収まらない
    選択的キャッシン
    グにより+5.7%
    性能 電⼒ (Lサイズ) 電⼒効率(Lサイズ)
    VE20: 2.14 GFLOP/s/W
    A100: 2.21 GFLOP/s/W
    +8.2%
    -0.6%
    選択的キャッシン
    グにより+6.5%

    View Slide

  34. パーティショニングモード
    • VEを2つのNUMAノードに分割する
    • 各NUMAノードは半分のコア,LLC,HBMを有する (容量と帯域幅も半分)
    • NoCにおける競合を緩和し,LLCの実効帯域幅が向上
    • キャッシュ負荷が⾼いアプリは⾼速化が期待可能
    第191回HPC研究会@東北⼤学 34
    Core
    Core
    Core
    Core
    Core
    Core
    LLC
    LLC
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    Core
    HBM2E
    HBM2E
    HBM2E
    HBM2E
    HBM2E
    HBM2E
    0
    100
    200
    300
    400
    500
    600
    700
    800
    900
    VE20 VE30
    GFLOP/s
    w/o Partitionig Mode
    w/ Partitionig Mode +7.1%性能向上
    NUMA
    ノード #0
    NUMA
    ノード #1
    姫野ベンチマーク

    View Slide

  35. SPEChpc mediumサイズのMPIプロファイル
    第191回HPC研究会@東北⼤学 35
    0
    20
    40
    60
    80
    100
    120
    140
    160
    VE30 A100 VE30 A100 VE30 A100 VE30 A100 VE30 A100
    Runtime [s]
    Others
    MPI_Init(_thread)
    MPI_Reduce
    MPI_Barrier
    MPI_Waitall
    MPI_Allreduce
    MPI_Irecv
    MPI_Isend
    miniWeather
    POT3D
    CloverLeaf
    TeaLeaf
    LBM
    0
    100
    200
    300
    400
    500
    600
    700
    VE30 A100
    Runtime [s]
    HPGMG-FV

    View Slide

  36. FP32ベクトルのアラインメント制約緩和
    • VE20ではFP32ベクトルをロード・ストアする際は8バイトアラインされている
    必要があり,⼀部のアクセスパターン (ステンシル等) では性能低下が発⽣
    • VE30はこの制約を4バイトアラインに緩和
    第191回HPC研究会@東北⼤学 36
    0
    10
    20
    30
    40
    50
    60
    70
    VE20
    w/o packed
    VE30
    w/o packed
    VE30
    w/ packed
    GFLOP/s
    do k = 1, nz
    do j = 1, ny
    do i = 1, nx
    a(i,j,k) = a(i,j,k) + &
    (b(i-1,j-1,k-1) + b(i ,j-1,k-1) + b(i+1,j-1,k-1) + &
    b(i-1,j ,k-1) + b(i ,j ,k-1) + b(i+1,j ,k-1) + &
    b(i-1,j+1,k-1) + b(i ,j+1,k-1) + b(i+1,j+1,k-1) + &
    b(i-1,j-1,k ) + b(i ,j-1,k ) + b(i+1,j-1,k ) + &
    b(i-1,j ,k ) + b(i ,j ,k ) + b(i+1,j ,k ) + &
    b(i-1,j+1,k ) + b(i ,j+1,k ) + b(i+1,j+1,k ) + &
    b(i-1,j-1,k+1) + b(i ,j-1,k+1) + b(i+1,j-1,k+1) + &
    b(i-1,j ,k+1) + b(i ,j ,k+1) + b(i+1,j ,k+1) + &
    b(i-1,j+1,k+1) + b(i ,j+1,k+1) + b(i+1,j+1,k+1))/27.0
    end do
    end do
    end do
    27点ステンシルベンチマーク

    View Slide

  37. 実アプリにおけるリスト総和演算カーネル
    • CFDアプリから抽出したカーネル (256中4つのインデックスが重複,2つの同⼀
    インデックスの組が存在)
    • vlfa命令により実⾏時間が175.6sから12.0sに短縮 (14.6倍⾼速化)
    第191回HPC研究会@東北⼤学 37
    DO N = nstart,nend
    IF(flag3(N)==1) THEN
    COF(7,WI(N),WJ(N),WK(N))=COF(7,WI(N),WJ(N),WK(N))+W_TAUWC(N) *
    W_AREA_1(N)
    SOC(WI(N),WJ(N),WK(N))=SOC(WI(N),WJ(N),WK(N))+W_TAUWS(N) * W_AREA_1(N)
    ENDIF
    ENDDO

    View Slide

  38. NVIDIA H100シリーズとの⽐較
    第191回HPC研究会@東北⼤学 38
    NEC VE Type
    30A
    NVIDIA H100
    PCIe
    NVIDIA H100
    SXM5
    NVIDIA H100
    NVL
    FP64演算性能/コア
    [GFLOP/s]
    307
    449.2 w/ TC
    224 w/o TC
    506.8 w/ TC
    253.4 w/o TC
    1013.7 w/TC
    506.8 w/o TC
    コア (SM) 数 16 114 132 264
    FP64性能/ソケット
    [TFLOP/s]
    4.9
    51.2 w/ TC
    25.6 w/o TC
    66.9 w/ TC
    33.5 w/o TC
    133.8 w/ TC
    67 w/o TC
    LLC容量 [MB] 64 50 50 100
    メモリ帯域幅 [TB/s] 2.45 2 3.35 7.8
    メモリ容量 [GB] 96 80 80 188
    プロセスルール [nm] 7 4 4 4
    TDP 300 W 350 W 700 W 700-800 W

    View Slide