超々ハイエンドサーバーの世界 2019年夏号

第二世代Xeon Scalableプロセッサ発売

第二世代Xeon Scalableプロセッサが4/2に発売された。コア設計的には前世代と変わらないが、面白い変更点も多いので紹介したい。

TDP400WのCPU

今回登場した中で最上位のXeon Platinum 9200シリーズはなんとTDP400Wモデルが存在する。どうしてこうなった

Xeon Platinum 9282のスペックは

  • コア数は超ド級の56コア112スレッド
  • メモリは12チャンネル

どうやらソケット単位でライセンス料が必要な場合にライセンス料を下げるためのCPUらしい。オンボードでのみ提供されるようだ。

1ソケットあたりのメモリ上限が3倍に

Xeon Scalable第一世代では、1ソケットあたり768GB, 一部モデルで1536GBであったが、第2世代では最低でも1TB、一部モデルで4.5TB搭載が可能となった(9200番台を除く)。

この4.5TBメモリに関しては新登場のOptane Persistent Memoryの搭載が前提と考えられる。Optane Persistent Memoryは現在一枚で512GBのモデルが登場し、これは現状最大容量のLRDIMM 3DS 128GBの4倍となる。

Intel、DDR4互換の不揮発性メモリ「Optane DC Persistent Memory」を正式発表 ~CPUソケットあたり最大4.5TBメモリ環境を実現、1Uで1PBの大容量SSDも
 Intelは4月2日(米国時間、日本時間4月3日)に報道発表を行ない、DRAMとフラッシュメモリの中間の特徴を持つOptane DC Persistent Memoryを発表し、同日に発表したデータセンター向けプロセッサ、“Cascade Lake-AP”こと「第2世代Xeon スケーラブル・プロセッサ(以下第2世代...

HDDを密度で大きく上回るSSD、すでに1Uで1PBへ

昨年のこと、100TBのSSDが発表された(全文表示される場合はリンク先サイトの仕様です)。

Nimbus Dataが100TB SSDを発表 - 世界最大容量のSSD | CineD
imbus Dataは通常の3.5インチで100TBのSSD、ExaDrive DC100を発表した。世界最大容量のSSDだ。また、非常に低い消費電力でTB当たりのコスト削減に貢献する。

また、新規格RulerのSSDが発表され、1Uのサーバーで1PBの容量が実現する。前々回の記事で上げた4Uサーバーが恐るべき密度でHDD92台を搭載して1.27PBであったが、これを大きく上回る。

インテル、1Uで容量1ペタバイトのSSD「Intel SSD D5-P4326」発売。QLC(1セルあたり4ビット)と64層の3D NAND技術を用いて大容量SSDを実現
米インテルは4月2日、イベント「Data-Centric Innovation Day」を開催。データセンター向けに1Uラックあたり1ペタバイトの容量を持つSSD「Intel SSD D5-P4326」の発売を発表しました。 画像右が「I...

価格は海外サイトで約1800ドル、公称速度はシーケンシャルリード3,200MB/s, ライト1600MB/sと容量の割にはやや控えめ。とはいえ、QLCであることを考えればむしろ高性能な部類か。

Access Denied

富士通 SPARCやNEC SXは今

理研の「京」の後継となるスーパーコンピュータの名称が「富嶽」に決定した。

「京」では富士通が長年に渡り開発を続けてきたSPARC64アーキテクチャのCPUが使用されてきたが、「富嶽」では英ARMベースのCPUが使用されることとなった。

近年存在感を失いつつある国産CPU(とはいえHPCではなく組み込み向けでは意外に生き残っているのだが)。彼らは今どこで何をしているのだろう。

富士通SPARC

SPARC64は富士通が1995年以前から開発してきたメインフレームやスパコン用国産CPUである(SPARCの基本設計はSun Microsystemの開発だが)。

SPARC64 Ⅷfxは京で使用されたCPUである。その後も約2年おきに新製品を登場させ、現在SPARC64 Ⅻが最新モデルとなる。

富士通SPARC64プロセッサの軌跡
メインフレーム、スーパーコンピュータ、UNIXサーバに搭載するSPARC64プロセッサの開発。その軌跡をたどります。

Ⅺfxは気象庁での導入事例が存在する。

性能は32コアで1TFLOPS以上とのことである。これはhttps://news.mynavi.jp/article/20141205-sc14_fx100/の記事を参考にする限りでは、32コア×2.2Ghz×16(1クロック1コアあたり計算回数)=1.1264TFlopsという計算のようであり、1コア1Ghzあたりの性能はIntelやAMDのCPUのAVX2命令使用時と同等となる(要するに最新のCore i7と変わらない)。またAVX-512命令を使用できるXeon-SPと比べると、1コア1Ghzあたりの性能ではXeonに負け、1CPUでの性能も最上位のXeon Platinum 8180の1.5Tflopsに負ける。

このように一般的なサーバー用CPUに比べたメリットが少なくなりつつあるSPARCだが、決してメリットが無くなったわけではない。

Xeon SPシリーズは最大でDDR4-2666の6チャンネル対応であり、メモリバンド幅は128GB/sとなる。https://vectory.work/memory-bandwidth/#toc8

一方、SPARC64 ⅫではHMCメモリにより、片方向240GB/sの帯域を実現するため、帯域では2倍前後有利となる。またメインフレームの流れをくむCPU自体の冗長化設計(CPUの内部構造が冗長化されている)、片方向100Gbps/s×2(双方向)×6次元の高速なノード間通信(Tofuインターコネクト)などはXeonに勝っている。

まとめると、京と同じくピーク性能よりも帯域重視により実行性能を高めている点、京でも示されたメインフレーム由来の高い安定性がSPARCの売りとなっている。

Sun MicrosystemはOracleに買収され、Sunの本家SPARCの開発は終了してしまった。過去には一大勢力を誇ったSPARC系CPUも生産企業が富士通と英cobhamの2社のみとなり、SPARC向けソフトウェアの開発も規模のメリットが大きく減少している。国産CPUとして頑張るSPARC64だが、前途は多難である。

NEC SX

SXは科学技術計算向けベクトルプロセッサである。通常の一般向けCPUとの違いは、Xeonなどよりはるかに多数の演算を1クロックで実行できる点、そして高速な演算に追いつくために大量の演算データをCPUに転送するため、CPUとメモリ間の帯域が非常に広帯域な点だ。

どれくらい広帯域かといえば、2013年発売のSX-ACEでメモリバンド幅256GB/sに対し、同時期発売のXeonが50GB/s程度である。帯域が重要な物理演算などのタスクでは一般的なCPUがピーク性能の1%も出せないことがあるが、SXはそんな状況で10%近い性能を出すことができる。ピーク性能は世界Top100に入らないにもかかわらず、物理演算のベンチマークでは世界3位になったこともある。

余談ではあるが、京は計画案ではNEC のベクトルプロセッサ、富士通SPARC、GPUの3種混合スパコンとなる案もあったようである。その場合SPARCのプログラミングしやすいというメリット(自動並列化、過去のCPUで使えた古いソースがそのまま流用できる、など)が複雑な構成となることで殺されることになるので、SPARCで統一した案は正解、という考えもできる。

すでに世界でベクトルプロセッサを生産するのはNECのみとなっていた。過去にはスーパーコンピューターの大半がベクトルプロセッサという時代があったが、現在では遥かに安価なIntelなどのプロセッサを大量に並列するスーパーコンピューターが主流となっている。そして潤沢なメモリ帯域を活かせるタスクでない場合、遥かに安価な一般向けx86CPUに負ける場合があるなど汎用性に欠ける。ベクトルプロセッサを取り巻く環境はSPARC以上に厳しく、2014年ごろには次世代SXはIntelと協業で開発する案が出ていた。

そして現在2019年現在の最新モデルはSX-Aurora TSUBASAである。

とても詳しい記事が合ったのでこちらを読んでほしい。

VectoryWork
は閉鎖することになりました。 サーバー・ドメインの契約期間が終了次第、完全閉鎖となります。 今までありがとうございました。

1/8追記:ふと気が付いたがリンク先では16,384要素となっているが、

307GFlops=1.6Ghz x FMA演算器3つ x 2(FMAによる乗算加算同時実行) x 32(一度に処理できる倍精度浮動小数の数)

32個の倍精度浮動小数=32*64bit=2048

なので、2,048要素ではないかと思うのだが、酒を飲みながら書いているので間違ってるかもしれない。なおこの計算が合っていれば、XeonのAVX512使用時が最大32flops/clock、SX-Aurora-tsubasaが192flops/clockとなる。(以上追記)

Intelと共同開発したという情報はなく、詳細は不明だが引き続きNECの単独開発となったようだ。しかしPCI-Express接続のアクセラレーター方式となるなどこれまでのSXと大きく様変わりしている。つまりOSを実行するCPUではなくなってしまった。

Flopsあたりのメモリ帯域は

  • 数世代前のSX-9が1コアあたり102GFlops:メモリ帯域64GB/s=0.62B/Flops
  • 現行SX-Auroraが1コアあたり300GFlops:メモリ帯域150GB/s=0.5B/Flops

であり、2割強減少した。それでも依然Xeonに比べれば驚異的なメモリ帯域を誇る。むしろ一般的なCPUのFlopsあたりのメモリ帯域は年々大きく減少しているので、相対的には向上していると見ることができる。

また、ドイツの気象庁からも受注があったようだ。https://it.impressbm.co.jp/articles/-/18094

世界で唯一の孤独なベクトルプロセッサとなってしまったNEC SXシリーズ。規模の経済で見ればSPARC以上に置かれた状態は厳しいが、それでもNEC1社だけで驚異的な頑張りを見せている。

コメント

タイトルとURLをコピーしました