期待のネット新技術

高帯域と低レイテンシーの一方で到達距離は限界へ、800G Pluggable MSAが想定する4つのシナリオ

【光Ethernetの歴史と発展】

 Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。

 【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。

「光Ethernetの歴史と発展」記事一覧

 引き続き「800G Pluggable MSA」について。MSA発足時のプレゼンテーションは前回紹介した通りだが、これに続いて800G Pluggable MSAからリリースされているホワイトペーパーを基に、もう少し説明しよう。

基本となるシナリオ。あとはSpineをどう配するかという話になる。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

800G Pluggable MSAが想定するデータセンターの構造図と、4つのシナリオで要求されるスペック

 上の図が800G Pluggable MSAが想定するデータセンターである。最上位が「DCI(Data Center Interconnect)」なのだが、最大数10kmの距離を想定しているので、MSAのカバー範囲外だ。その下が、昨今のHyper-Scale Data Centerでよく使われる「Spine-Leaf-TOR(Top Of Rack)」型の構成である。

 この構造そのものは割と一般的である。少し古いデータだが、例えばMicrosoftの2013年におけるデータセンターの構造は以下のようなものだ。

これは400Gの議論をしている際の資料だが、構造と伝送距離に関しては参考になるかと思う。出典は"Global Networking Services: Objectives to Support Cloud Scale Data Center Design"

 Facebookの開発者向けブログ「FACEBOOK Engineering」で公開されている以下の図では、LeafとSpineが垂直に交わるような構造になっているが、階層構造としては最初の図と同じことが分かるだろうか。

Spine Planeが複数のServer Podsを横方向に横断するかたちで構成されるという面白い構造。これは2014年のものなので、Linkは40Gだ。出典は"Introducing data center fabric, the next-generation Facebook data center network"

 ちなみに、800G Pluggable MSAでは、2022年に要求されるスペックとして、以下を挙げている。

Scenario 1(Server⇔TOR)Scenario 2(TOR⇔Leaf)Scenario 3(Leaf⇔Spine)Scenario 4(TOR⇔DC)
帯域200G800G800G800G
モジュールQSFP-DDないしQSFP
到達距離ラック内4mまたはラック間20m70m以上が必須または100m程度500mまたは2km80~120km

 Microsoftにおける実際の数字(3m/20m、500m、1km、10~80km or >100km)とかなり近い数字になっていることからも、MSAの想定する要求そのものは、大きく外れていないと考えていいだろう。

 MSAでは、Scenario 1は2022年には200Gで、接続方式は「AOC(Active Optical Cable)」。Scenario 2は800GのPSM4ないしPSM8、Scenario 3が800GのPSM4/FR4、Scenario 4が800G ZRになるとしている。

 このうち、Scenario 4の800G ZRは、MSAの検討対象外なのでOIF(Optical Internetworking Forum)」が手掛けることになるだろう。

 実際、OIFは、800G IA(Implementation Agreement)の開発を始めることを2020年12月に発表している(まだOIFではそう呼んではいないが、おそらく「800ZR」となると見込まれている)。

 そんなわけで、MSAとしてはScenario 1~3に注力すればいい、ということとなった。2019年がいずれも100Gないし400Gなのに対し、2022年には800Gになることに対応しよう、という話である。

低レイテンシー・高帯域への要求の一方、AI/HPC向けクラスタのシナリオにはやや疑問符も

 ちなみに、最初の図はCloud Datacenter向けの構造となるが、その一方でAI/HPC向けクラスタとなるのが以下の図だ。

AI向けはともかくHPC向けでは、FatTreeとなる場合が多い。その意味ではScenario 2の帯域は少なくとも2倍、できれば4倍は欲しいところで、その意味でも「?」ではある。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 HPC向けだとTORやDCは存在しない方が通常なので、Spine-Leaf構造になることそのものは普通だが、その際にLeaf-Serverは現行2×200Gなのが2021年には2×400Gに、Spine-Leafは400Gが800Gにそれぞれアップグレードされる、としている。

 ただ、この話にはさすがに少し違和感がある。例えば現時点でのTOP500は、2020年11月の結果となるが、この中でEthernetを使っているものの最上位は、66位の「ADVANCED COMPUTING SYSTEM」となる。

 ところが、これはノードあたり6本の200G Ethernetで3次元トーラスを構成するという構造なので、物理的にはEthernetを利用しているものの、上図のようなAI/HPC向けクラスタの構造とは全く無縁だ。

 もう少し一般的な構成だと、86位となっているサウジアラビアKAUST(キング・アブドゥッラー科学技術大学)の「UNIZAH-II」というシステムが10G Ethernetとされているが、実際にはこのシステムはMellanox(現NVIDIA)のConnextX-6を利用してInfiniBandでInterconnectを構築していて、10Gはメンテナンスや外部からのアクセス用であり、Interconnect用ではない。

 実際にTOP500を見てみると、上位にはInfiniBandまたは独自Interconnect(CrayのAries interconnectやSlingshot、IntelのOmni-Path Fabric、富士通のTofuなど)がほとんどで、Ethernetを使って構築されたシステムはかなり下位である。その意味で、このシナリオはやや疑問符が付く。

 HPC向けはともかくAI向けに関しては、AI/HPC向けクラスタの図のような構造になっている可能性もあるが、複数のノードで連携して処理を分散して行うような使い方であれば、やはりHPC的なクラスタ構造になっていないと難しいようにも思う。

 ただ、帯域そのものへの要求が増えつつあること自体は間違いではない。MSAによれば、AI/HPC向けネットワークの場合、以下のような要求があるとしている。AI/HPC向けの場合、絶対的な帯域もさることながら、レイテンシーの少なさが非常に重要視されていることと、これは無関係ではない。

Scenario 1(Leaf-Server)Scenario 2(Spine-Leaf)
帯域400G800G
モジュールQSFP-DD/OSFP
到達距離ラック内4mまたはラック間20m500m
レイテンシー92ns(IEEE PMA layer)

 さて、この2種類の利用シナリオにおける5つのScenario(Cloud Datacenter向けのScenario 4はMSAのサポート外)については、Cloud Datacenter向けのScenario 1、つまりTORとLeafの間の接続となる。

 加えて言えば、要求としては400G以上であるため、800Gが必ずしも必要となるわけではないが、AI/HPC向けのScenario 1、つまりLeafとServerの接続もやはり20m以内ということで、Short Reachが適用できる。ここに向けてのMSAのProposalが以下となる。

「800G SR8」を想定した構成。AI/HPCのScenario 1もやはり2×400Gだから、この構成は都合がいいとも言える。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 要するに、1つのモジュールに2組の400GBASE-SR4を組み込む方式である。もっとも、400G-SR4という規格は現時点では存在しない。近いものは『IEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保』で紹介した「400GBASE-SR4.2」だが、こちらは50G PAM4、つまりレーンあたり50Gbpsなので、片方向あたり8対、双方向で16本の光ファイバーが必要となる。

 これを2つ並べると、トータルで32本の光ファイバーが必要となる計算なので、これは非現実的だ。そこでMSAでは100G PAM4、つまりクロック信号は56Gで、これにPAM4変調を掛けて1レーンあたり100Gの転送が可能な仕様を策定することを決めた。これなら800Gでも片方向あたり8対、トータルで16本の光ファイバーで済むからだ。

 その一方で、到達距離に関してはかなり限界が近いことも認識されていた。IEEEによれば、光源にVCSELを利用する限り、MMF(それが仮にOM4/OM5であっても)を利用する場合も、到達距離100mを確保するのは50Gbpsが限界であり、100Gbpsに引き上げるとOM4/OM5で50m、OM3だと35mになるとしている。

IEEEの方も、もうOM3のサポートは切り捨てた上で、30~50mの到達距離に限って400GBASE-SR4を策定しよう、という動きがあるらしい。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES

 これを避けるべく以下の各方策が考えられたものの、いずれも高コスト化が避けられない。

  • MMFを止めてSMFにする
  • VCSELを止め、さらに高出力のレーザー源を使う
  • PAM4をPAM16にする、あるいは400ZRのようにCoherentを使う

 何をどうやってもコストとの兼ね合いになる関係で、であれば到達距離を諦め、VCSEL+MMFで800Gを狙おう、と割り切ることにしたようだ。

大原 雄介

フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/