【InfiniBandの現在】Mellanox、Gen-Z Consortiumへ参画、データ量急増などによるメモリ帯域不足を解消するInterconnect実現へ【ネット新技術】

　「InfiniBandの現在」では、規格としての歴史と現状、今後の動向をまとめて紹介している。大半の読者にとっては「InfiniBandって何？」というところだろうが、僚誌クラウドWatchをご覧になっておられる読者の中には「何で今さら」という方も居られるかもしれない。

　そう、InfiniBandという規格は、1999年に作業が始まり、2000年に最初の規格策定が行われたという「えらく古い」規格なのである。

「InfiniBandの現在」記事一覧

失われる帯域やレイテンシでの優位、高コストのデメリットInfiniBandの広範な普及でカバーできるか？

　前回までの通り、InfiniBandは高速さと低レイテンシを武器に、HPCのマーケットを主戦場に頑張っていたわけだが、早晩行き詰まることは見えつつあった。

　InfiniBandは“今でこそ”イーサーネットと比べて、帯域やレイテンシといった性能面で優位性を持っていたが、そのイーサーネット向けには「RoCE（RDMA over Converged Ethernet）」や「iWARP（Internet Wide Area RDMA Protocol）」といった技術が出てきていて、特にレイテンシ削減の観点で高い効果を発揮していた。

　帯域も、100G Ethernetから200/400G Ethernetへのトランジションが起きると見られた状況下で、InfiniBandのアドバンテージが失われていくことが見えていたわけだ。

　その一方で、InfiniBandのマーケットは主にHPC向けに限られているため、出荷数量がそれほど多くなく、量産効果によるコスト低減はあまり期待できない。これに対してイーサーネットは、HPC以外のほぼすべての分野で利用されていて、量産効果によるコスト減が大いに期待できるわけで、事実、100G Ethernetなど恐ろしい勢いで低価格化が進んでいる。

　こうなってくると、コスト競争力の観点で、InfiniBandがイーサーネットに太刀打ちできなくなるのは、時間の問題ということになっていたわけだ。

Mellanoxの売上構成でイーサーネットが上回るも、InfiniBandも依然4割

　これにどう立ち向かうのか？　立ち向かわない、というのも1つのアイディアではある。実際、Mellanoxの売上を見ても、2017年以降はイーサーネットがInfiniBandを上回るようになっており、このままInfiniBandが衰退していっても、その分だけイーサーネット関連製品の売上が伸びれば、それでもいいという見方もできる。

2003～2017年のMellanox売上推移

　以前の連載でも掲載した上のグラフは2017年までだったので、その後の数字を拾ってみると、以下のようになる（2019年通期の決算はまだ出ていない）。

2018年以降のMellanox売上推移
	InfiniBand関連	イーサーネット関連	その他	合計
2018年通期	4億3836万ドル	6億1847万ドル	3191万ドル	10億8874万ドル
2019年Q1	1億3814万ドル	1億6089万ドル	619万ドル	3億522万ドル
2019年Q2	1億3288万ドル	1億6913万ドル	831万ドル	3億1032万ドル
2019年Q3	1億3445万ドル	1億9800万ドル	280万ドル	3億3525万ドル

　この調子だと、2019年通期の売上は12億ドル程度になりそうだが、それはともかく、イーサーネット関連がInfiniBand関連を常に上回る状況が続いており、Mellanoxとしては、InfiniBandの売上が落ちても、それをイーサーネットの売上で埋められれば構わないのかもしれない。

　ただ、そうはいっても、InfiniBand関連はまだ売り上げの4割以上を占めているだけに、そうそう簡単にあきらめる気にはなれないのだろう。要するに、InfiniBandがHPCでしか使われていないことが問題であり、ほかの用途でも利用されるようになれば、コスト競争力の観点でもイーサーネットと互して戦っていける、という見方もできる。

データ量と演算性能の増加によるメモリ帯域不足解消へ、Gen-Z Consortiumへ参画

　おそらくはそうした観点からであろう、Mellanoxは2016年にFounder MemberとしてGen-Z Consortiumの立ち上げに参画する。もともとMellanoxは、かつてIntelによって捨てられてしまった、エンタープライズ中核のInterconnectとしての用途へ再び参入することを目指し、以前から活発に活動を行っていた。

　以下の画像は、SNIA（Storage Networking Industry Association）主催の「SDC 2012」におけるMellanoxの講演スライドからの抜粋であるが、こうした努力を重ねてきたにも関わらず、InfiniBandの普及は、なかなか進まなかった。

InfiniBandスイッチを中核としたデータセンターの構成。サーバーは全てがInfiniBandで接続される形態

イーサーネットに対するInfiniBand優位の一例。イーサーネットでも同じことは不可能ではないが、より安価にこれを実現できるとする

FiberChannelベースのSANとも親和性が高い、という話。2012年はFiberChannelが、まだ広く使われていた時期である

フラッシュストレージを利用する場合、低レイテンシと高スループットが武器になる、という意味。"Remote Storage Access with Local Storage Performance"は、非常に分かりやすいうたい文句だ

　普及が進まない理由は簡単で、やはりコストである。そもそもHPCでない普通のデータセンター向けであれば、レイテンシはそこまでクリティカルな問題とならない。もちろん少なければ少ないに越したことはないが、それこそRoCEで提供される程度のレイテンシであれば十分で、アドバンテージにはなりにくい。

　何しろ価格が極端に違うわけで、仮に帯域が足りないとしても、複数本のイーサーネットをポートトランキングで束ねてしまえば、それなりに確保できてしまう。最終的には「どっちが安いの」という観点で決着が付いてしまう。

　SNIAだけではなく、Mellanoxは2011年に発足したOCP（Open Compute Project）にも、Platinum Memberとして2012年から参画している。このOCPの活動において未来のデータセンターシステムの方向性を検討していく中で、既存のInterconnectではいろいろ都合が悪いことがあり、Gen-Zはこれを解消したいという動機から立ち上がったようだ（断言できないのは、Formalにはこの辺の話が一切ないためである）。

　Gen-Z Consortiumは2016年10月11日に正式に発足する。創立メンバーはAMD、ARM、Cavium（現Marvell）、Cray（現HPE）、Dell EMC、HPE、Huawei、IBM、IDT（現ルネサス）、Lenovo、Mellanox、Micron、Microsemi（現Microchip）、Red Hat（現IBM）、Samsung、Seagate、SK hynix、WDC（Western Digital Corporation）、Xilinxの19社である。ここでは、Gen-Zがどうして生まれることになったのか、という話を紹介しよう。

BI/ML/DL/AIは、ほぼ同じものを指している気はするが、それはともかく、例えばディープラーニングのトレーニングであれば、より大量のデータで学習するほど精度が上がる。するとデータアクセス（つまりストレージからサーバーへのデータの移動）はより増えることになる

メモリにしてもPCIeにしても、数年ごとに2倍程度にしか帯域が上がらないのに対し、演算性能の方は毎年倍近いスピードで向上しているから、これは当然だろう

時間が経過すると、HDDはもうホットストレージから外れ、コールドストレージでのみ残る想定になっているのは、当然か

　右の画像は、2018年のOCP U.S.SUMMITで公開されたGreg Casey氏の"Gen-Z High-Performance Interconnect for the Data-Centric Future"という講演のスライド（PDF）からの抜粋である。根本的な問題は、扱うべきデータ量が急速に増えるとともに、データの持ち方が変わってくることが予想される点にある。

　既にメモリと演算性能のバランスは大幅に崩れており、明らかに演算性能に比してメモリ帯域が足りない状況に陥っている。これをカバーするべく、現在サーバーメーカーはSCM（Storage Class Memory）を積極的に利用しようとしている。

　その最右翼がIntelであり、「Optane」と呼ばれるPCMベースの不揮発性メモリを、単にストレージとして繋ぐだけでなく、DDR4＋Optane Memoryというハイブリッド型メモリ（Intelは「Optane DC Persistent Memory」と称している）として提供。より大量のメモリを、CPUから少ないアクセス時間で利用できるようにすることで、このメモリ帯域のギャップを緩和しようとしているわけだ。

　もともとこれは、DIMMの上にDDR4とフラッシュメモリーを混在させる「NVDIMM（Non Volatile DIMM）」として、JEDECでも標準化が終わっている（正確に言えば、現状は「NVDIMM-N」と呼ばれる規格のみが標準化されており、これに続く「NVDIMM-P」はまだ標準化作業中）。

　さらにこの先は、より高速なメモリ（HBM2/3？）が主記憶になって、その外側にDIMMベースのDDR4/5がNVDIMMを併用するかたちで繋がり、さらにその外にはフラッシュメモリーベースのストレージが接続されるという構成で高速化が図られるだろう。というか、そのような高速化を図らなければ、せっかくの高い演算性能を生かせないという懸念がある。

これをイーサーネットでやるのは、不可能ではないが結構大変ではある（というか、2016年当時は不可能に近かった）

　これを念頭にすると、既存のInterconnectというかFabricでは、いろいろ足りないものがある、という問題提起が右のスライドだ。

　メモリアクセスの方法が、DRAMのランダムアクセス方式から、SCMではブロックアクセスになることにも絡んで、要するにレイテンシをもっと減らさないと、SCMをFabricの先には置けなくなるという話である。

　さらに言えば、ヘテロジニアスな環境で、しかもそのヘテロジニアスなデバイス（CPU/GPU/FPGA）の間でキャッシュコヒーレンシを取ろうとすると、既存のFabricではお手上げになってしまう。このあたりを解決できる新しいFabricが必要というのが、Gen-Z Consortiumの意見なのだ。

Mellanox、Gen-Z Consortiumへ参画、データ量急増などによるメモリ帯域不足を解消するInterconnect実現へ