期待のネット新技術
高帯域と低レイテンシーの一方で到達距離は限界へ、800G Pluggable MSAが想定する4つのシナリオ
【光Ethernetの歴史と発展】
2021年5月11日 06:00
Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。
【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。
「光Ethernetの歴史と発展」記事一覧
- 10BASE-Tと同じ仕組みの光ファイバーで最大2kmを実現「10BASE-F」
- 屈折率で伝送距離が異なる「光ファイバー」の材質と構造
- 最大100Mbpsながら伝送距離の異なる「100BASE-FX」「100BASE-SX」などの各規格
- 実効1Gbpsに到達した「1000BASE-SX/1000BASE-LX/1000BASE-CX」
- 拠点間接続に用いる「1000BASE-X」の各種関連規格
- 低価格な光ファイバーで1Gbpsを実現する車載向けがメインの「GEPOF」
- 10Mbpsの「MII」から1000MbpsのCisco独自規格「SGMII」まで
- 1波長で10Gbps、光源と到達距離の異なる「10GBASE-W/R」の各規格
- 10Gbpsのフレッツ光で使われる「10GBASE-PR」、既存ケーブルを流用できる「10GBASE-LRM」
- XENPAK→X2→XFP→SFP+と移った10GBASEのトランシーバーモジュール規格
- 10Gbpsのシリアル通信規格「XFP」、これを置き換えた「SFP+」
- 10GbEの次は40GbEと100GbE、HSSGによってともに標準化の開始へ
- 最大100Gbps、「IEEE 802.3ba」として標準化された8つの規格
- IEEE 802.3baで定義されたInterconnectとトランシーバー規格
- 100Gbpsで100mを目指す「P802.3bm」、IEEE 802.3baをブラッシュアップ
- 最大100Gbps・100mの「100GBASE-SR4」と40Gbps・40kmの「40GBASE-ER4」
- CFPのサイズ半分、最大200Gbpsの「CFP2」、さらに小型化された「CFP4」
- 40Gbpsの「QSPF+」、50Gbpsの「QSFP56」、112Gbpsの「SFP-DD」「QSFP28」
- 25Gbps×4で100Gbps、光Ethernet第2世代「IEEE 802.3bm-2015」の各規格が標準化
- 50Gbpsに対応する5つの規格「50GBASE-KR/CR/SR/FR/LR」
- 「25G PAM-4」で100/200Gbpsを実現する7規格と、SMF1対で100Gbpsの「100G PAM-4」
- 25Gbps×8の「200GBASE-R」では4つのモジュール規格が乱立
- 最大400Gbpsを実現する2つのモジュール規格「OSFP」「CDFP」
- 1レーン50Gbpsで最大400Gbpsを実現する「P802.3bs」
- レーンあたり50/25Gbpsで400Gbpsを実現する「IEEE 802.3bs」の各規格
- 53.125Gの「PAM-4」を4対束ねた「PSM4」で最大400Gbps「400GBASE-DR4」
- アクセス回線向けの光ファイバー規格「IEEE P802.3cp/P802.3cs/P802.3ct」
- 位相変調した光信号を復号するコヒーレント光、波長分離多重の「DWDM」併用の「400ZR」
- 「100GBASE-ZR」を残し「IEEE P802.3ct」から「400GBASE-ZR」を分割
- 1対のMMFで100Gbpsを目指す「IEEE P802.3db」
- IEEE標準ではない光Ethernetの各規格、100G/400G/800Gですでに登場
- SWDMを用いた100/40Gbpsの「100G-SWDM4-MSA」と「40G-SWDM4-MSA」
- 「100GBASE-LR4」と「100GBASE-SR10」の間を埋める最大100Gbpsの「100G PSM4 MSA」
- SMF1本で25Gbps×4の100Gbpsを実現、到達距離2kmの「CWDM4 MSA」、40kmの「4WDM MSA」
- 100Gbpsで10/20/40kmの到達距離を狙った「100G 4WDM-10/20/40」
- 「100G PAM-4」で最大100Gbps、到達距離2kmの「100G-FR」と10kmの「100G-LR」
- SMF1対で100Gbpsの「100G LR1-20/ER1-30/ER1-40」、4本束ねて400Gbpsの「400G-FR」
- 最大400Gbps、到達距離2kmの「400G-FR4」と到達距離10kmの「400G-LR4-10」
- 最大100Gbpsで250kmを伝送可能な「MSA-100GLH」、巨大なサイズと消費電力で採用進まず
- 最大400Gbps、到達距離10kmの「CWDM8」、8×50G NRZの採用で低コストと低電力を実現
- 400Gbpsで到達距離2kmと10kmの「CWDM8 2km/10km」、低OH濃度SMFの採用で損失を抑える
- 400Gを光ファイバー1本で双方向通信する「400G BiDi MSA」、「400GBASE-SR8」を先行規格化
- 50Gが8対で400Gbpsの「400G-BD4.2」、消費電力増や高コストが課題に
- IEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保
- 高コストで普及に至らない「400GBASE-SR8」と、さらに高価な「400GBASE-SR4.2」
- 最大800Gbpsの100G PAM-4 PHY、ベンダー各社がサポート、受発光素子普及のカギは940nm?
- ETCがリリースした「800G Ethernet」の仕様は400Gを2つ並べる構造に
- 「QSFP-DD MSA」を発展させる「QSFP-DD800」、供給電源など今後に課題も
- 最大800Gbpsを目指す「800G Pluggable MSA」、3つの変調方式を採用
- 高帯域と低レイテンシーの一方で到達距離は限界へ、800Gへ想定される4つのシナリオ
- PSM4とCWDM4で1.6Tb/secを実現し、到達距離も延長「800G Pluggable MSA」
- 800G Ethernetに関連、OSFP MSAと2つのIEEEの動向
- 800Gの本命「IEEE 802.3 Beyond 400 Gb/s Ethernet」、100/200Gの信号で800G/1.6Tを実現
- 200G×8の1.6Tbps、×4の800Gbpsでの転送実現は2023年?
- 100Gが8対の「800GBASE-VR8/SR8」が仕様に追加、BERの目標値決定にはさらなる情報が必須
- 200GにおけるElectricalインターフェースを検討、通信に必要な消費電力は半減へ
- Beyond 400 Gb/s EthernetにおけるOTNサポートは4月の投票でいったん否決
- 1.0E10年のMTTFPAを維持、1.0E-14のBER Targetには高コストなFECが必要に
- FacebookやMicrosoftのDC事業者が先行、Beyond 400G Study Groupは800Gと同時に1.6Tの標準化を主張
- 200Gの光伝送は技術的に実現可能、一定の損失を前提にすれば現実的なPAM6の検討も?
- 800Gb/sと同時に1.6Tb/s Ethernet仕様も策定へ 200Gb/sレーンの製品出荷は2027年頃?
- 到達距離10kmの「800G-LR」に向け、Coherent-Lite方式を検討を求めるGoogle
- 200Gのシリアルと800GのWDM、どっちが先に100万ポート出荷を実現できるのか?
- 400・200Gb/sのサポートなど、2021年7月ミーティングへの投票は可決が多数
- 800Gで10kmの到達距離を実現する「800Gbps/10km Reach SMF」の4案
- 800Gで到達距離40kmを目指す「ER8」、MZMを採用し、400G向けDSPを2つ並列
- 銅配線での8レーン800Gが規格化、レーンあたり200Gも実現へ?
- 「IEEE P802.3df」のPAR分割に向けた動き、作業効率化の一方で異論も?
- 800G実現に向け、PDM-32QAMで96G/192GBaudとPDM-16QAMで120G/240GBaudをリストアップ
- これまでの光Ethernet規格振り返りと、「40GBASE-FR」をめぐる議論の経緯
- 「IEEE 802.3cn-2019」は若干のパラメーター変更のみ、「100GBASE-AR/400GBASE-AR」は現時点で幻に
- 「100GBASE-AR」と「400GBASE-AR」は「IEEE P802.3cw」に、PMDの仕様を定義して2023年中ごろに標準化?
- 到達距離500mの「CWDM4-OCP-100G」、低価格な100G Ethernet規格として広く流通し始める
引き続き「800G Pluggable MSA」について。MSA発足時のプレゼンテーションは前回紹介した通りだが、これに続いて800G Pluggable MSAからリリースされているホワイトペーパーを基に、もう少し説明しよう。
800G Pluggable MSAが想定するデータセンターの構造図と、4つのシナリオで要求されるスペック
上の図が800G Pluggable MSAが想定するデータセンターである。最上位が「DCI(Data Center Interconnect)」なのだが、最大数10kmの距離を想定しているので、MSAのカバー範囲外だ。その下が、昨今のHyper-Scale Data Centerでよく使われる「Spine-Leaf-TOR(Top Of Rack)」型の構成である。
この構造そのものは割と一般的である。少し古いデータだが、例えばMicrosoftの2013年におけるデータセンターの構造は以下のようなものだ。
Facebookの開発者向けブログ「FACEBOOK Engineering」で公開されている以下の図では、LeafとSpineが垂直に交わるような構造になっているが、階層構造としては最初の図と同じことが分かるだろうか。
ちなみに、800G Pluggable MSAでは、2022年に要求されるスペックとして、以下を挙げている。
Scenario 1(Server⇔TOR) | Scenario 2(TOR⇔Leaf) | Scenario 3(Leaf⇔Spine) | Scenario 4(TOR⇔DC) | |
帯域 | 200G | 800G | 800G | 800G |
モジュール | QSFP-DDないしQSFP | |||
到達距離 | ラック内4mまたはラック間20m | 70m以上が必須または100m程度 | 500mまたは2km | 80~120km |
Microsoftにおける実際の数字(3m/20m、500m、1km、10~80km or >100km)とかなり近い数字になっていることからも、MSAの想定する要求そのものは、大きく外れていないと考えていいだろう。
MSAでは、Scenario 1は2022年には200Gで、接続方式は「AOC(Active Optical Cable)」。Scenario 2は800GのPSM4ないしPSM8、Scenario 3が800GのPSM4/FR4、Scenario 4が800G ZRになるとしている。
このうち、Scenario 4の800G ZRは、MSAの検討対象外なのでOIF(Optical Internetworking Forum)」が手掛けることになるだろう。
実際、OIFは、800G IA(Implementation Agreement)の開発を始めることを2020年12月に発表している(まだOIFではそう呼んではいないが、おそらく「800ZR」となると見込まれている)。
そんなわけで、MSAとしてはScenario 1~3に注力すればいい、ということとなった。2019年がいずれも100Gないし400Gなのに対し、2022年には800Gになることに対応しよう、という話である。
低レイテンシー・高帯域への要求の一方、AI/HPC向けクラスタのシナリオにはやや疑問符も
ちなみに、最初の図はCloud Datacenter向けの構造となるが、その一方でAI/HPC向けクラスタとなるのが以下の図だ。
HPC向けだとTORやDCは存在しない方が通常なので、Spine-Leaf構造になることそのものは普通だが、その際にLeaf-Serverは現行2×200Gなのが2021年には2×400Gに、Spine-Leafは400Gが800Gにそれぞれアップグレードされる、としている。
ただ、この話にはさすがに少し違和感がある。例えば現時点でのTOP500は、2020年11月の結果となるが、この中でEthernetを使っているものの最上位は、66位の「ADVANCED COMPUTING SYSTEM」となる。
ところが、これはノードあたり6本の200G Ethernetで3次元トーラスを構成するという構造なので、物理的にはEthernetを利用しているものの、上図のようなAI/HPC向けクラスタの構造とは全く無縁だ。
もう少し一般的な構成だと、86位となっているサウジアラビアKAUST(キング・アブドゥッラー科学技術大学)の「UNIZAH-II」というシステムが10G Ethernetとされているが、実際にはこのシステムはMellanox(現NVIDIA)のConnextX-6を利用してInfiniBandでInterconnectを構築していて、10Gはメンテナンスや外部からのアクセス用であり、Interconnect用ではない。
実際にTOP500を見てみると、上位にはInfiniBandまたは独自Interconnect(CrayのAries interconnectやSlingshot、IntelのOmni-Path Fabric、富士通のTofuなど)がほとんどで、Ethernetを使って構築されたシステムはかなり下位である。その意味で、このシナリオはやや疑問符が付く。
HPC向けはともかくAI向けに関しては、AI/HPC向けクラスタの図のような構造になっている可能性もあるが、複数のノードで連携して処理を分散して行うような使い方であれば、やはりHPC的なクラスタ構造になっていないと難しいようにも思う。
ただ、帯域そのものへの要求が増えつつあること自体は間違いではない。MSAによれば、AI/HPC向けネットワークの場合、以下のような要求があるとしている。AI/HPC向けの場合、絶対的な帯域もさることながら、レイテンシーの少なさが非常に重要視されていることと、これは無関係ではない。
Scenario 1(Leaf-Server) | Scenario 2(Spine-Leaf) | |
帯域 | 400G | 800G |
モジュール | QSFP-DD/OSFP | |
到達距離 | ラック内4mまたはラック間20m | 500m |
レイテンシー | 92ns(IEEE PMA layer) |
さて、この2種類の利用シナリオにおける5つのScenario(Cloud Datacenter向けのScenario 4はMSAのサポート外)については、Cloud Datacenter向けのScenario 1、つまりTORとLeafの間の接続となる。
加えて言えば、要求としては400G以上であるため、800Gが必ずしも必要となるわけではないが、AI/HPC向けのScenario 1、つまりLeafとServerの接続もやはり20m以内ということで、Short Reachが適用できる。ここに向けてのMSAのProposalが以下となる。
要するに、1つのモジュールに2組の400GBASE-SR4を組み込む方式である。もっとも、400G-SR4という規格は現時点では存在しない。近いものは『IEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保』で紹介した「400GBASE-SR4.2」だが、こちらは50G PAM4、つまりレーンあたり50Gbpsなので、片方向あたり8対、双方向で16本の光ファイバーが必要となる。
これを2つ並べると、トータルで32本の光ファイバーが必要となる計算なので、これは非現実的だ。そこでMSAでは100G PAM4、つまりクロック信号は56Gで、これにPAM4変調を掛けて1レーンあたり100Gの転送が可能な仕様を策定することを決めた。これなら800Gでも片方向あたり8対、トータルで16本の光ファイバーで済むからだ。
その一方で、到達距離に関してはかなり限界が近いことも認識されていた。IEEEによれば、光源にVCSELを利用する限り、MMF(それが仮にOM4/OM5であっても)を利用する場合も、到達距離100mを確保するのは50Gbpsが限界であり、100Gbpsに引き上げるとOM4/OM5で50m、OM3だと35mになるとしている。
これを避けるべく以下の各方策が考えられたものの、いずれも高コスト化が避けられない。
- MMFを止めてSMFにする
- VCSELを止め、さらに高出力のレーザー源を使う
- PAM4をPAM16にする、あるいは400ZRのようにCoherentを使う
何をどうやってもコストとの兼ね合いになる関係で、であれば到達距離を諦め、VCSEL+MMFで800Gを狙おう、と割り切ることにしたようだ。
「10GBASE-T、ついに普及へ?」記事一覧
【アクセス回線10Gbpsへの道】記事一覧
- 622Mbpsを32台のONUで分割、ATMがベースの「ITU G.983.1」仕様
- 「Bフレッツ」(100Mbps)に採用された最大622Mbpsの「B-PON」
- IEEE 802.3ahとして標準化された1Gbpsの「GE-PON」
- 2.488Gbpsの「G-PON」、B-PON後継のG.984.1/2/3/4として標準化
- 「10G-EPON」で10Gbpsに到達、IEEE 802.3avとして標準化
- NURO光 10Gに採用された10Gbpsの「XG-PON」、「G.987」として標準化
- XG-PON後継、上りも10Gbpsの「XGS-PON」と「NG-PON2」
- 25Gbpsの「NG-PON2+」、5G基地局向けバックボーン向け
- 最大100Gbpsの「100G-EPON」、2020年に標準化完了
- 【番外編】XG-PONを採用する「NURO 光 10G」インタビュー