期待のネット新技術
ラック間やサーバー間で2.5GT/sの転送速度を実現する「InfiniBand 1.0」
【InfiniBandの現在】
2019年9月10日 06:00
前回からは、「InfiniBand」の歴史と現状、今後の動向をまとめて紹介している。大半の読者にとっては「InfiniBandって何?」というところだろうが、僚誌クラウドWatchをご覧になっておられる読者の中には「何で今さら」という方も居られるかもしれない。
そう、InfiniBandという規格は、1999年に作業が始まり、2000年に最初の規格策定が行われたという「えらく古い」規格なのである。
「InfiniBandの現在」記事一覧
- 汎用的なInterconnectへ進化しつつあるInfiniBandの成り立ちは?
- ラック間やサーバー間で2.5GT/sの転送速度を実現する「InfiniBand 1.0」
- Intelが開発中止、発熱対処に難、サーバー間接続一本化は実現せず
- 低コスト低レイテンシーでHPC向け分散型構成に活路
- InfiniBandで高性能を実現するMPIの仕様策定と、その実装「MPICH」
- HBAとMPIとの組み合わせで、低レイテンシーを安価に実現する「RDMA」
- RDMAでパケットを高速転送する「SDP」、これをiSCSIで実現する「iSER」
- 売上から見るInfiniBand市場規模の推移、急速な世代交代もポイント
- SDRの2.5GT/secに加え、DDRの5GT/secとQDRの10GT/secを2004年に追加
- 低レイテンシ―かつ高速なMellanox初のDDR対応HCA「InfiniHost III Ex/Lx」
- 「QDR」に初対応のInfiniBand HCA「ConnectX IB」と10GbEカード「ConnectX EN」
- InfiniBand QDR/Ethernet両対応「ConnectX-2」、324ポートスイッチ「MTS3610」
- 14GT/secの「FDR」と25GT/secの「EDR」、64b66bでのエラー増に「FEC」で対応
- InfiniBand FDR対応の「ConnectX-3 VPI」カード、HPC向けが中心
- SANスイッチ向けにInfiniBand市場へ参入したQLogic、撤退の後、2006年にはHCA向けに再参入
- QLogic、市場シェアを拡大も2012年にInfiniBand部門をIntelへ売却
- Intel、QLogicから買収したInfiniBandからOmni-Path Fabricへ
- InfiniBandが主戦場のMellanox、独自の56GbEでイーサーネット関連を拡大するも……
- Mellanox、100Gbpsの「EDR」製品を2014年リリース、2017年は売上の中心に
- 4x構成で200Gbps超の「InfiniBand HDR」、Mellanoxが2018年後半に製品化
- データ量と演算性能増によるメモリ帯域不足解消へ、Gen-Z Consortiumへ参画
- Gen-Zに加え、競合InterconnectのCAPI、CCIX、CXLにも参画するMellanox
- PCIeの処理オーバーヘッドを36分の1に、IBM独自の「CAPI」から「OpenCAPI」へ
- DRAMサポートを追加、メモリI/F統合も考慮した「OpenCAPI 3.1」
- 3種類の接続形態をサポートする「Gen-Z Ver.1.1」
- HDRは好スタート、InfiniBandのこの先は?
ラック間、ラック内サーバー間接続を目的に2001年に仕様がリリースされた「InfiniBand 1.0」
前回紹介したNGIO ForumとFuture I/O Allianceが合併する前の1999年7月21日にNGIO Forumは、"NGIO Forum 1.0 Specification"をリリースしている。
InfiniBand Trade Associationは、これを基にSpecification 1.0の策定を急ぐ。最終的にInfiniBand Architecture Specification Release 1.0のVolume 1のみが2000年9月26日(Volume 2は10月24日)にリリースされ、その後、2001年6月にエラッタの修正のみを行ったRelease 1.0aが、2002年11月6日に機能追加などを包括したRelease 1.1がリリースされている。
Release 1.0aのリリースから少し後の2001年8月、サンフランシスコで開催されたIDF(Intel Developer Forum)で、ちょうどこのInfiniBandに関するさまざまなセッションが開催されていた。当時の資料をベースに、InfiniBand 1.0の概要を簡単に紹介していこう。
まず目的であるが、最小限の配線で300m程度、つまりデータセンター内部のラック間、あるいはラック内のサーバー間の接続を目的とするものだ。加えて言うなら、単なるサーバーとストレージの接続だけでなく、InfiniBandでクラスタを構築することも考えていたためか、数千台まで接続可能なスケーラビリティもここに盛り込まれることになった。
基本的なネットワーク構成というか、接続方法をまとめたのが以下の図だ。左側がサーバーで、そこにHCA(Host Channel Adapter)が装着され、そこからInfiniBand Linkが出てくるかたちになる。そのInfiniBand Linkで接続されたスイッチを経由し、ほかのHCAやTCA(Target Channel Adapter)へと接続されるほか、ルーターを介して、ほかのネットワーク経由で別のスイッチと接続することも可能になっている。
OSIの7層構造で言えば、InfiniBandはPhysical~Transportまでの各レイヤーを提供するかたちとなっており、その上はアプリケーション任せということになる。
プロトコルとしては、1つのトランザクションが複数のメッセージから構成され、各々のメッセージが複数のパケットから構成されるという、それそのものは非常に妥当な構成だ。送受信はこれを複数の仮想レーンに振り分けた上で並列(2レーン以上の場合)に転送を行うという仕組みだ。
ちなみにスイッチの内部には、複数の接続をパーティショニングできるファブリケーションの機能が搭載予定とされた。メッセージのキューイングやQoS(Quality of Service)の機能も盛り込まれている。こうした仕様を改めて見直してみると、HBAはともかくInfiniBandのスイッチを(2000年当時に)実装するのは、さぞかし大変だったろうと思わざるを得ない。
PCI Express Gen1と同じ信号方式を採用、銅で17m、光ファイバーで10kmの到達距離と2.5GT/sの伝送速度
ちなみに、物理層のプロトコルは、2.5GT/secのDifferential Signalingで、Uni-Directionalを2対組み合わせたBi-Directionalの構成だ。エンコードは8B/10Bを採用したEmbedded Clock方式である。
難しく書いたが、要するにPCI Express Gen1と全く同じ信号方式となる。この結果として、PCB(プリント基板)上での配線は最大20インチ程度という、PCI Expressと同じ制限が付くことになった。そのPCI Expressと異なるのは、以下の点となる。
- 当初からリピーターを念頭に置いており、これを途中に挟み込むことで最大で3倍程度まで配線長を伸ばせた。PCI ExpressでリピーターにあたるReTimerが正式に標準化されたのは、PCI Express Gen 3.1のタイミングとなる
- 当初からOut-of-Boxを念頭に置いており、銅ケーブルで最大17m、光ファイバーで最大10kmまでが対象とされた。PCI Expressでは、PCI Express 2.0のリリース後で、PCI Express External Cabling Specification Revision 1.0がようやくリリースされたが、思ったほどには普及しなかった。光ファイバーに至っては現時点でも標準化はされておらず、ベンダー独自のPCIe Extension製品が存在する程度でしかない
もっとも、時間軸で言えばPCI ExpressがInfiniBandと同じ信号形式を利用した、というのが正確なところだろうとは思う。ちなみに配線に関しては1X(送受信1対)以外に、4X(4対)と12X(12対)の3種類が規定されていた。
実はこの12Xに関して言えば、どこからこういう不思議な構成が出てきたのか、今もって謎である。以前、PCI Expressが確かGen 2.1でx12をサポートした際に、その理由をPCI-SIGの関係者に聞いたところ「これはInfiniBandからの要請によるものだが、そもそも何故x12という不思議な構成にしているのかはさっぱり分からない」とこぼされた記憶がある。
なお、信号がディファレンシャル(片方向あたり2本で1対)なのは銅配線(つまりPCB上と銅ケーブル)のみで、光ファイバーを利用する場合は片方向あたり1本で構成される。
ケーブルの構成は、初代の2.5GT/sのケーブルに関して言えば、Specification(Volume 2のChapter 7に"Copper Cable"とある、その大半はコネクターにおける機械的あるいは電気的な面の形状や特性が記述されているだけだった。さらに、ケーブルの物理的特性に関しては「半径100mmで曲げられること」だけ。ケーブル断面の構造とか、シールド、ツイストペアの構成などに関しては、一切要求していないという、なかなか「それでいいのか?」と言えそうなものだった。
ただ、インピーダンスやData Eyeの大きさ、ノイズ耐性やESDなどに関しての規定はあり、これらを電気的に満たしていれば(UTPあるいはSTPでなくても)構わないということのようだ。おそらく1Xに関して言えばUTPで済みそうだが、4Xとか12Xに関してはSTPで構成されていたのではないだろうか。
ちなみに1Xのコネクターは以下のような形状で、全幅13.80mm、高さ10.29mm、奥行き(金属部のみ)33.41mmとなっており、イーサネットのRJ45コネクターに比べ、一回り大きい程度に過ぎない。それもあり、比較的小さなサーバーであっても、簡単に実装できると考えられていた。
さて、2011年の段階では、IntelはInfiniBandに対して非常に前向きだった。実際、InfiniBandだけで12ものテクニカルセッションを開催しており、またIDFに先立つPDK(Platform Development Kit:2つのHBAアダプタとIntel謹製のInfiniBandスイッチをパッケージした開発キット)を用意したりしていた。
さらに、テスト環境構築のTDK(Test Development Kit)を発表したり、最初のPlugFestの様子を公開したり、といった具合で、この時点では「未来はInfiniBandにある」という猛烈なノリを感じるものであった。これが一転するのは、2002年のことだった。
「InfiniBandの現在」記事一覧
- 汎用的なInterconnectへ進化しつつあるInfiniBandの成り立ちは?
- ラック間やサーバー間で2.5GT/sの転送速度を実現する「InfiniBand 1.0」
- Intelが開発中止、発熱対処に難、サーバー間接続一本化は実現せず
- 低コスト低レイテンシーでHPC向け分散型構成に活路
- InfiniBandで高性能を実現するMPIの仕様策定と、その実装「MPICH」
- HBAとMPIとの組み合わせで、低レイテンシーを安価に実現する「RDMA」
- RDMAでパケットを高速転送する「SDP」、これをiSCSIで実現する「iSER」
- 売上から見るInfiniBand市場規模の推移、急速な世代交代もポイント
- SDRの2.5GT/secに加え、DDRの5GT/secとQDRの10GT/secを2004年に追加
- 低レイテンシ―かつ高速なMellanox初のDDR対応HCA「InfiniHost III Ex/Lx」
- 「QDR」に初対応のInfiniBand HCA「ConnectX IB」と10GbEカード「ConnectX EN」
- InfiniBand QDR/Ethernet両対応「ConnectX-2」、324ポートスイッチ「MTS3610」
- 14GT/secの「FDR」と25GT/secの「EDR」、64b66bでのエラー増に「FEC」で対応
- InfiniBand FDR対応の「ConnectX-3 VPI」カード、HPC向けが中心
- SANスイッチ向けにInfiniBand市場へ参入したQLogic、撤退の後、2006年にはHCA向けに再参入
- QLogic、市場シェアを拡大も2012年にInfiniBand部門をIntelへ売却
- Intel、QLogicから買収したInfiniBandからOmni-Path Fabricへ
- InfiniBandが主戦場のMellanox、独自の56GbEでイーサーネット関連を拡大するも……
- Mellanox、100Gbpsの「EDR」製品を2014年リリース、2017年は売上の中心に
- 4x構成で200Gbps超の「InfiniBand HDR」、Mellanoxが2018年後半に製品化
- データ量と演算性能増によるメモリ帯域不足解消へ、Gen-Z Consortiumへ参画
- Gen-Zに加え、競合InterconnectのCAPI、CCIX、CXLにも参画するMellanox
- PCIeの処理オーバーヘッドを36分の1に、IBM独自の「CAPI」から「OpenCAPI」へ
- DRAMサポートを追加、メモリI/F統合も考慮した「OpenCAPI 3.1」
- 3種類の接続形態をサポートする「Gen-Z Ver.1.1」
- HDRは好スタート、InfiniBandのこの先は?