季刊超々ハイエンドサーバーの世界 2020年冬号

Samsungから低遅延SLC NAND SSDが登場

東芝がOptane対抗として低遅延SLC NANDの高速ストレージを出すという話が以前からあったが、意外にもSamsungが先に出してきた。

Samsung 983 ZET

Z-NAND採用SSD「Samsung 983 ZET」が北米で発売 : 自作とゲームと趣味の日々
Samsungから一般的なNAND型SSDよりもレイテンシ(遅延)が3分の1以下と高速な”Z-NAND採用”を採用し、NAND型SSD史上究極のSSDを謳う「Samsung 983 ZET」シリーズが登場。北米Amazonで発売。
  • I/O性能はOptaneには及ばないが従来のSSDよりランダムI/Oがはるかに高速
  • 500GBで約1000ドル
  • 書き換え可能回数は約15000回(一般的なTLC NANDの20倍以上)

ダイサイズが22cmx22cm!?の巨大チップ

従来大型のGPUでもダイサイズが900㎟に収まるものである。しかしダイサイズが46,255㎟という規格外のディープラーニング用処理チップCerebrasが開発された。

初のトランジスタ数1兆のチップを製造するためにCerebrasが克服した5つの技術的課題 | TechCrunch Japan
Cerebrasには最高のものがあふれている、これまで密かに次世代のシリコンチップ製造を進めて来たこの会社は、Amazonから歯磨き粉を買うことと同じくらい素早く、ディープラーニングモデルを生み出せるようにすることを目指している。

ざっとスペックをTesla V100と比較すると

CerebrasTesla V100(V100sも同様?)
コア数400,0005,120
メモリ18GB(オンチップ)32GB(最大、非オンチップ)
ダイサイズ46,255㎟810㎟
消費電力15,000W250W

メモリが少なく感じるが、18GBはチップ上に実装されたものであり、さらに外部メモリを使用できる可能性がある。

このようなダイサイズのチップをどうやって作るのかと思うだろうが、なんとウエハー1枚を丸々使用しているとのこと。また各コアはそれほど大きくないため、製造時の不良部分については不良コアを無効化することで対応しているようだ。

演算性能は残念ながら不明。システム全体としては消費電力20,000Wの15Uシステムとして提供されるようだ。

TensorflowやPyTorchなど一般向けライブラリでCerebrasが使用可能とのことである。ただし専用コンパイラが必要なようだ。

Prefferd NetworksがMN-Coreを発表

深層学習に特化した ディープラーニング・プロセッサー MN-Coreを発表。2020年春、MN-Coreによる大規模クラスターMN-3を稼働予定 | 株式会社Preferred Networks
株式会社Preferred Networks(本社:東京都千代田区、代表取締役社長:西川徹、プリファードネットワークス、以下、PFN)は、深層学習に特化したディープラーニング・プロセッサー MN-Core (TM) (エ

こちらもディープラーニング向け演算チップとなる。消費電力500Wで最大演算性能は0.5PFLOPS(半精度)になるとのこと。

また、MN-Coreを使用して2EFLOPSのスーパーコンピューターを計画中のようだ。

ハイエンドチップ性能比較

半精度(TFLOPS)単精度(〃)倍精度(〃)消費電力
Tesla V100s130168250W
MN-Core50013133500W
GeForce RTX2080 ti113130.4250W
Google Cloud TPU2180??250W
〃3420??200W
Xeon Platinum 8180M<6.84.122.06205W
Xeon Platinum 9282<13.69.32?4.66?400W
Ryzen TR 3990X18.49.24.6280W
Tearing Apart Google’s TPU 3.0 AI Coprocessor
Google did its best to impress this week at its annual IO conference. While Google rolled out a bunch of benchmarks that were run on its current Cloud TPU
インテル Xeon Scalable Processor 全リスト (仕様 比較 一覧表)|株式会社アークブレイン

Xeon Platinum 8180Mについては、倍精度の数字はリンク先に掲載のもの。AVX512では単精度少数は倍精度の2倍処理できるとして計算した。半精度少数はAVX512命令では扱えず、AVX2命令で(扱えるかは不明なものの)扱えるとして、単精度の2倍の速度、ターボブースト最大のクロックで扱えるものとして計算している。

Xeon Platinum 9282についてはAVX512使用時のクロックが不明であるため、ベースクロックでAVX512命令を使用できるとして倍精度、単精度性能を計算している。半精度少数の計算方法は上に同じ。

VIAがハイエンドサーバー市場に参入!?

北森瓦版 - VIA CenTaurの新たなx86 CPU 時代はエンタープライズとAI・・・なの
北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)

VIA Technologiesが久々に新しいエンタープライズ向けx86プロセッサを投入すると発表。

  • 8コア
  • 2.5Ghz
  • PCIe Gen.3 44レーン
  • AI処理用アクセラレータ付き?
  • AVX512対応

という従来CPU性能的にはIntelの足下にも及ばなかったVIAが悪いものを食べたんじゃないかと心配になるスペックである。

余談ではあるが、現在x86 CPUを作っているメーカーは

  • Intel
  • AMD
  • VIA
  • Elbrus
  • 兆芯(VIAのアーキテクチャをベースにライセンス生産)

SPARC系CPUを作っているメーカーは

  • 富士通
  • cobham

がある。ARM系はライセンス先は把握できてない。IA-64は滅びた。

最近のグッと来たサーバー

最近編集部員が見つけた逸般の誤家庭垂涎の高性能サーバーを紹介したい。

GST1200-NV4

GPU(Tesla V100) 4基搭載・1Uサーバー~ あらゆる用途・課題に対応|ファナティック
GPU(NVIDIA Tesla V100 NVLink対応) 4基、第2世代Intel Xeonスケーラブル・プロセッサー搭載、1Uラックマウント型サーバー。お客様の使用用途にあわせてCPU、メインメモリ、ストレージ、ネットワークなどの仕様構成の変更が可能。ディープラーニングに必要な各種ライブラリなどのインストールの...

1UにTesla V100x4, Xeon Plainum x2を詰め込める狂気のハイエンドサーバー。その分ストレージ数が犠牲となっているようだ(画像を見る限り2.5インチベイx2?)。

しかし、フルサイズとハーフの拡張スロットが2つずつ空いているのが見えるため、さらにGPUなどを詰め込むことも可能のようだ。

GST4200-20

4Uサーバー・NVIDIA T4(旧名称:Tesla T4) 20基搭載モデル~ あらゆる用途・課題に対応|ファナティック
第2世代Intel Xeonスケーラブル・プロセッサー、NVIDIA T4 20基搭載、4Uラックマウント型サーバー・ベースモデル。CPU、メモリー、ストレージ、RAIDコントローラ、FC、infinibandなど、お客様の使用用途にあわせて仕様構成の変更や追加が可能なオーダーメイド・サーバーです。

前代未聞のGPUを20機搭載できるサーバー。

しかしTesla T4は性能的にはV100に劣るので、DGX2や下のサーバーより性能は劣ると思われる。

GST10200-16

10Uサーバー・Tesla V100 16基搭載モデル~ あらゆる用途・課題に対応|ファナティック
NVIDIA Tesla V100 NVLink対応GPU (Volta) 16基搭載、10Uラックマウント型サーバー。お客様の使用用途にあわせてCPU、メインメモリ、ストレージ、ネットワークなどの仕様構成の変更が可能。ディープラーニングに必要な各種ライブラリなどのインストールのご相談承ります。

NVIDIA DGX2とほぼ同等性能の4Uサーバー。今更驚くほどのスペックではないが一応取り上げる。NIC数はDGX2よりこちらのほうが10GBASE-Tポートが一つ多い。

コメント

タイトルとURLをコピーしました