期待のネット新技術
Mellanox、HBA1枚で100Gbpsの「InfiniBand EDR」を2014年リリース、2017年以降は売上の中心に
【InfiniBandの現在】
2020年1月21日 06:00
「InfiniBandの現在」では、規格としての歴史と現状、今後の動向をまとめて紹介している。大半の読者にとっては「InfiniBandって何?」というところだろうが、僚誌クラウドWatchをご覧になっておられる読者の中には「何で今さら」という方も居られるかもしれない。
そう、InfiniBandという規格は、1999年に作業が始まり、2000年に最初の規格策定が行われたという「えらく古い」規格なのである。
「InfiniBandの現在」記事一覧
- 汎用的なInterconnectへ進化しつつあるInfiniBandの成り立ちは?
- ラック間やサーバー間で2.5GT/sの転送速度を実現する「InfiniBand 1.0」
- Intelが開発中止、発熱対処に難、サーバー間接続一本化は実現せず
- 低コスト低レイテンシーでHPC向け分散型構成に活路
- InfiniBandで高性能を実現するMPIの仕様策定と、その実装「MPICH」
- HBAとMPIとの組み合わせで、低レイテンシーを安価に実現する「RDMA」
- RDMAでパケットを高速転送する「SDP」、これをiSCSIで実現する「iSER」
- 売上から見るInfiniBand市場規模の推移、急速な世代交代もポイント
- SDRの2.5GT/secに加え、DDRの5GT/secとQDRの10GT/secを2004年に追加
- 低レイテンシ―かつ高速なMellanox初のDDR対応HCA「InfiniHost III Ex/Lx」
- 「QDR」に初対応のInfiniBand HCA「ConnectX IB」と10GbEカード「ConnectX EN」
- InfiniBand QDR/Ethernet両対応「ConnectX-2」、324ポートスイッチ「MTS3610」
- 14GT/secの「FDR」と25GT/secの「EDR」、64b66bでのエラー増に「FEC」で対応
- InfiniBand FDR対応の「ConnectX-3 VPI」カード、HPC向けが中心
- SANスイッチ向けにInfiniBand市場へ参入したQLogic、撤退の後、2006年にはHCA向けに再参入
- QLogic、市場シェアを拡大も2012年にInfiniBand部門をIntelへ売却
- Intel、QLogicから買収したInfiniBandからOmni-Path Fabricへ
- InfiniBandが主戦場のMellanox、独自の56GbEでイーサーネット関連を拡大するも……
- Mellanox、100Gbpsの「EDR」製品を2014年リリース、2017年は売上の中心に
- 4x構成で200Gbps超の「InfiniBand HDR」、Mellanoxが2018年後半に製品化
- データ量と演算性能増によるメモリ帯域不足解消へ、Gen-Z Consortiumへ参画
- Gen-Zに加え、競合InterconnectのCAPI、CCIX、CXLにも参画するMellanox
- PCIeの処理オーバーヘッドを36分の1に、IBM独自の「CAPI」から「OpenCAPI」へ
- DRAMサポートを追加、メモリI/F統合も考慮した「OpenCAPI 3.1」
- 3種類の接続形態をサポートする「Gen-Z Ver.1.1」
- HDRは好スタート、InfiniBandのこの先は?
「InfiniBand FDR」を高速化した「InfiniBand EDR」へ
前回はMellanoxのイーサネットに対する取り組みについて振り返ってみたが、今回はInfiniBandに話を戻そう。「InfiniBand FDR」を利用することで、1枚のHBAで100Gbpsの転送が可能になったが、より高速なInterconnectへのニーズはもちろんあった。
「Connect-X 3」をリリースした2011年の段階では、まだハッキリは見えていなかったものの、2012年にIntelがQLogicを買収した時点で、さらなる高速化競争を仕掛けてくることは自明だった。
それがInfiniBandではなくOmniPathだった、というのはちょっと想定外だったかもしれないが、「InfiniBand EDR」のサポートに向け、Mellanoxは続いて邁進することになる。
「InfiniBand EDR」対応のHBA「Connect-X 4」が2014年リリース、対応スイッチは提供は遅れ
本連載の第13回でも掲載した以下の表でも示したように、InfiniBand EDRの速度は厳密には25.78125Gbpsである。ただし64b/66bエンコードを利用するので、実効転送速度はきっちり25Gbpsだ。
もっとも、InfiniBand FDRと同様に、エラー訂正として「FEC(Forwared Error Correction)」を採用する関係で、実際のデータレートは24.62Gbps、4x構成では98.5Gbpsほどになる。これなら100Gbpsと称しても、差し支えない範囲だろう。
しかし、そのInfiniBand EDRについては、さすがにMellanoxでも手こずったようだ。14Gbps対応のConnectX-3は2011年6月にリリースされたが、25Gbps対応の「Connect-X 4」のリリースは、2014年まで引っ張ることになった。
最初にリリースされたのは、HBAではなくスイッチ向けのチップである。2014年6月開催の「ISC 14」にあわせ、InfiniBand EDR対応の「Switch-IB」が発表される。内容としては1~25Gbpsまでに対応したSerDes(Serializer/DeSerializer)が144ポート分で、4xの場合はこれを4つ束ねるかたちとなり、トータル36ポートという計算になる。
6月に発表された時点では、まだ「EVB(EValuation Board:開発用評価ボード)」に実装して動作を見せる、というレベルのもので、まだ顧客へ納入できる状況ではなかった。
その後の11月にようやく、InfiniBand EDRをサポートしたHBAとなる「ConnextX-4」が発表される。
Switch-IB、ConnectX-4ともに、製造はTSMCの28nmプロセスだった。まだ供給量が限られていた2013年頃には複数のメーカーによる取り合いが発生していたが、2014年に入ると供給量も増え、安定して確保できるようになったことも、出荷が伸びた理由なのかもしれない。
Switch-IBを採用したInfiniBand EDR対応スイッチの提供は、サードパーティーが先駆けて開始し、Mellanoxからの提供はやや遅れた。2014年11月18日には、ミネソタ大がMSI(Minnesota Supercomputing Institute)向けの712ノードのスーパーコンピューターにInfiniBand EDRを利用することを発表しているが、これはHP製のInfiniBand EDRスイッチが利用されていた。
もっともMellanoxでも、11月18日には36ポートのSwitch-IB搭載製品を発表(スペックから言えばSB7700シリーズではないかと思う)している。
多ポート製品もその後すぐに出てくるかと思いきや、そうした製品はInfiniBand HDRまでお預けとなっていて、Mellanoxが提供するのは1Uサイズで36ポートの製品止まりだった。このあたり、OEMとの間で何かしらの取り決めがあったのかもしれないが、そのあたりは資料を探しても見つからなかった。
EDRの売上は2017年にFDRを上回る、シェアではQDRをフォロー
InfiniBand関連の売り上げを見ると、そのEDRは2014年にはさすがにほぼなかったが、2015年から急速に伸びていった。そして、この年をピークに以後次第に落ち込み始めたFDRと、2017年あたりにクロスすることとなった。
InfiniBand FDR/EDRより前に普及していた「InfiniBand QDR」は、8x(つまり4xポート×2)で接続すると100Gbpsの帯域が利用でき、ほかに手ごろなInterconnectもないとの状況もあり、2011年の発表以来、猛烈に利用されていた。
以下のグラフは、2012年6月~2019年11月までの7年間のTOP 500において、Interconnectの一覧からInfiniBandを利用しているサイトをピックアップしてまとめたものだ。ピーク時には255のサイトがInfiniBandをベースにHPCシステムを構築していた状況で、その大半がInfiniBand FDRをベースとしていた。
InfiniBand全体 | InfiniBand QDR | InfiniBand FDR | InfiniBand EDR | |
2012年6月 | 206 | 106 | 20 | ― |
2012年11月 | 220 | 107 | 45 | ― |
2013年6月 | 203 | 93 | 67 | ― |
2013年11月 | 205 | 78 | 88 | ― |
2014年6月 | 221 | 75 | 132 | ― |
2014年11月 | 223 | 65 | 146 | ― |
2015年6月 | 255 | 76 | 167 | 3 |
2015年11月 | 234 | 63 | 163 | 2 |
2016年6月 | 195 | 34 | 148 | 9 |
2016年11月 | 186 | 19 | 149 | 14 |
2017年6月 | 176 | 15 | 124 | 34 |
2017年11月 | 163 | 10 | 109 | 41 |
2018年6月 | 139 | 9 | 76 | 53 |
2018年11月 | 134 | 5 | 64 | 64 |
2019年6月 | 121 | 5 | 50 | 64 |
2019年11月 | 138 | 4 | 41 | 82 |
ただ、InfiniBandを利用するサイト数は、2015年をピークとして次第に減っていく。これはさまざまな競合の登場が理由で、Crayが独自に提供する「Aries/SlingShot」のほか、Intel「Omni-Path Fabric」も頑張ってシェアを取ろうとしており、これらに次第に押されつつある状況だったわけだ。
その結果InfiniBand QDRは、2016年と比較的早い時期にほぼ消えかけており、そのシェア、InfiniBand EDRがちょうどフォローしている、という感じだった。
HPCのアップデート、GPUの併用などでInterconnect自体の切り替えも増加
なお、HPCの場合には、しばしば定期的に中身が総入れ替えになる。例えば2002年に運用を開始した「地球シミュレータ」は、2009年と2015年に中身がアップデートされ、現在では3世代目になっている。あるいは東京工業大学の「TSUBAME」も、2006年の稼働開始後、2010年、2013年、2017年に、それぞれアップデートされている。逆に「京コンピュータ」のように、アップデートがされずに終わった例もあり、必ずアップデートが行われるわけでもない。
一般論として、従来は世代交代が5年程度で発生し、3~4年というケースもままあった。これはプロセスの微細化により、より高速なプロセッサやGPUが、より少ない消費電力で利用できるようになってきていたためだ。HPCの運用コストの多くを、機器+クーラーの電気代が占めている以上、早めに省電力の新製品へ置き換え、運用コストを抑えつつ、演算性能を引き上げることでユーザーの利便性を図る、というシナリオであった。
ただ、2014年あたりからは、プロセスの微細化が一段落してしまう。Intelは2013年に22nmプロセスの「Haswell」を出荷、続く14nmの「Skylake」は2015年に出荷されるが、ここで微細化に急ブレーキがかかっており、14nmプロセスを利用した製品が、現時点でも出荷され続けている。
こうしたこともあって、単純に新製品へ入れ替えるのではなく、GPUの併用によるヘテロジニアス構成に切り替える、といった工夫が必要となったこともあって、システムの入れ替えサイクルが6年程度に伸びつつあるわけだ。
すると、Interconnectの更新期間も当然伸びるという状況になり、しかも新システムが旧システムとは大きく構成が変わり、例えば以前はCPUノードのみを組み合わせていたのが、新システムはCPU+GPUのハイブリッドになるようなケースでは、Interconnectそのものの切り替えもあり得る。
そのいい例が、先ほども触れた東京工業大学のTSUBAMEだ。初代のTSUBAME 1.0はInfiniBand SDR 4xを利用して構築され、TSUBAME 2.0ではこれがInfiniBand QDR 4xに更新されたが、続くTSUBAME 3.0では、IntelのOmni-Path Fabricベースへと置き換えられてしまった。
こうしたケースはほかにもあり、そんなわけでInfiniBandのHPCにおけるシェアが、2016年あたりから次第に削り取られつつある状況なのだが、それでもInfiniBand EDRの登場で、こうした状況に一定の歯止めが掛かったかたちではある。
「InfiniBandの現在」記事一覧
- 汎用的なInterconnectへ進化しつつあるInfiniBandの成り立ちは?
- ラック間やサーバー間で2.5GT/sの転送速度を実現する「InfiniBand 1.0」
- Intelが開発中止、発熱対処に難、サーバー間接続一本化は実現せず
- 低コスト低レイテンシーでHPC向け分散型構成に活路
- InfiniBandで高性能を実現するMPIの仕様策定と、その実装「MPICH」
- HBAとMPIとの組み合わせで、低レイテンシーを安価に実現する「RDMA」
- RDMAでパケットを高速転送する「SDP」、これをiSCSIで実現する「iSER」
- 売上から見るInfiniBand市場規模の推移、急速な世代交代もポイント
- SDRの2.5GT/secに加え、DDRの5GT/secとQDRの10GT/secを2004年に追加
- 低レイテンシ―かつ高速なMellanox初のDDR対応HCA「InfiniHost III Ex/Lx」
- 「QDR」に初対応のInfiniBand HCA「ConnectX IB」と10GbEカード「ConnectX EN」
- InfiniBand QDR/Ethernet両対応「ConnectX-2」、324ポートスイッチ「MTS3610」
- 14GT/secの「FDR」と25GT/secの「EDR」、64b66bでのエラー増に「FEC」で対応
- InfiniBand FDR対応の「ConnectX-3 VPI」カード、HPC向けが中心
- SANスイッチ向けにInfiniBand市場へ参入したQLogic、撤退の後、2006年にはHCA向けに再参入
- QLogic、市場シェアを拡大も2012年にInfiniBand部門をIntelへ売却
- Intel、QLogicから買収したInfiniBandからOmni-Path Fabricへ
- InfiniBandが主戦場のMellanox、独自の56GbEでイーサーネット関連を拡大するも……
- Mellanox、100Gbpsの「EDR」製品を2014年リリース、2017年は売上の中心に
- 4x構成で200Gbps超の「InfiniBand HDR」、Mellanoxが2018年後半に製品化
- データ量と演算性能増によるメモリ帯域不足解消へ、Gen-Z Consortiumへ参画
- Gen-Zに加え、競合InterconnectのCAPI、CCIX、CXLにも参画するMellanox
- PCIeの処理オーバーヘッドを36分の1に、IBM独自の「CAPI」から「OpenCAPI」へ
- DRAMサポートを追加、メモリI/F統合も考慮した「OpenCAPI 3.1」
- 3種類の接続形態をサポートする「Gen-Z Ver.1.1」
- HDRは好スタート、InfiniBandのこの先は?