期待のネット新技術

400GbEはFacebookやMicrosoftのDC事業者が先行、Beyond 400G Study Groupは800Gと同時に1.6Tの標準化を主張

【光Ethernetの歴史と発展】

 Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。

 【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。

「光Ethernetの歴史と発展」記事一覧

Facebookデータセンター内の配線は500m以内が大半ながら14%は2kmの到達距離が必要

 BER周りのプレゼンテーションを紹介した前回に続き、IEEE 802.3 Beyond 400 Gb/s Ethernet Study Group」の2021年5月のミーティングの内容について見ていこう。

 BER周りと比べ、Optical周りに関するプレゼンテーションが少なかったのは、3月のミーティングにおけるOptical関係の提案で、ある程度話が付いたとみなされた(というか、3月の提案内容を精査しないとその先には進めず、これはStudy Groupの範疇を超えると判断された?)ようだ。

 それもあって5月のミーティングでは、Opticalを実装するための方法論というよりは、もう少し広い範囲から見た話がいくつか示された。

 まず、FacebookのRob Stone氏らによる"On the Broad Market Potential of the 800 Gb/s 4 wavelength 2km on Single Mode Fiber Objective"は、実質スライド5枚と簡単なものだが、そこに興味深い話が出てきていた。

 Facebookが自社で抱えるデータセンター(DC)は、Sustainability Impact Mapでも参照できるが、現時点で世界に17拠点が置かれ、各DC内の構成は以下右のようになっている。

拠点の場所よりも、ほとんどのデータセンターが基本的にH字型をしている点に注意
2つの建物にMDF(Main Distribution Frame)が、間をつなぐ通路(というには幅がある)にBDF(Building Distribution Frame)が設置されている

 とにかく、1つのDCが複数の建物に分かれ、それぞれの間はかなりの距離になる。そして、そこで使われているSMFの距離をまとめたのが右で、別の書き方をすると以下のような比率となる。つまり、大半は500m以内である一方で、2kmほどの到達距離を必要とするケースが14%ほどあるわけだ。

  • 500m未満 79%
  • 500m以上~1000m未満 2%
  • 1000m以上~2000m未満 14%
  • 2000m以上~3000m未満 4%
ほとんどのケースはMDF内あるいはBDF内で片付くため500m未満だが、MDF⇔BDF接続は2km近く引き回すケースがかなりあるという話

FacebookやMicrosoftのDC事業者にはIEEEの標準化作業は遅いとの不満が先んじて標準化したMSAをIEEEがフォローアップするのが暗黙の前提に

Facebookは13のDCで使う分だけで、モジュールの数は万の単位では効かないだろう。10万のオーダーは確実で、そこまで数が出れば独自規格の対応をベンダーにお願いできるし、しかもOCPとして標準化も行われるわけで、さすがとしか言いようがない

 さて、FacebookではDC内の配線コストを最小限に抑えるため、以下をベースとしているという。

  • 単一のSingle Optical PMDを利用
  • 現在は混在している「200G-FR4-OCP」と「400G-FR4-OCP」を「800G-FR4-OCP」へ移行
    (いずれもIEEEの同種規格の派生規格で、到達距離は最大3km。DCの環境に合わせて波長を変更)
あくまでこれは「お願い」で、具体的にそうした提案を行うというわけではない。ここまでの出典は"On the Broad Market Potential of the 800 Gb/s 4 wavelength 2km on Single Mode Fiber Objective"

 その上で、以下の要望を示した。これは、Study Groupの議論が深まる中で、実際に利用しているユーザーのリクエストを示した格好だ。

  • 非IEEE標準のFR4仕様は既に広く利用されている(何しろ自分たちが使っている!)
  • モジュールの標準化は重要
  • できれば3kmの到達距離を考慮して欲しい
つまり800Gはパスして400Gの後に1.6Tに行きたい、としているわけだ。出展は"Future DC Network Considerations"

 似た話は、MicrosoftのBrad Booth氏による"Future DC Network Considerations"でも寄せられた。Microsoftは現在、400Gを400ZRで実装しようとしており、この先は800Gをパスして400G×2という構成を考えているそうだ。そしてこれは、ほかのDC事業者でも似た傾向、ということが、まず示されていた。

 次の話はスイッチだ。以下はInphiが以前に示したスライドを下敷きにしたものだが、Core-Aggregation-ToRという3層構造のスイッチになっている。ただ、これはあくまで論理的な話で、実際はサーバーの数が増えると、TORはともかくAggregationのステージが1段では済まなくなる可能性が高い。

128ポートでも、Aggregateが1段では済まない(120ポートをRack接続に使うと、Coreに繋ぐ分が8ポートしかなく、さすがにバランスが悪い)可能性が高い

 例えばラックが120本あり、ところがスイッチが32ポートしかないような場合、一番台数が少ないのは図1の構成となるが、これだとLayer 1とLayer 2の間の帯域が細すぎることになり、ここがボトルネックとなる。

 そこで、もう少しバランスを考えると図2のような3段構成となり、スイッチの台数も9台にまで増えることになる(これでバランスが取れているか、は使い方次第。Layer 3は例えば16ラック程度に抑え、Layer 1⇔Layer 2の間もx8ではなくx4などとした方がいいのかもしれないが、そもそも32ポートスイッチという時点でいろいろと破綻しているので、その点に突っ込むつもりはないため、ご容赦いただきたい)。

図1
図2

 要するに、スイッチのポート数(Radix)が足りないことが最大の要因であり、しかも多段構成にすると、それだけレイテンシーも増え、消費電力も増えるので、いいことは何もない。

 このあたりからも、業界では大容量のスイッチを使う方向へとシフトしているが、Microsoftでは512ポートの採用を考慮しているそうだ。ポート数が多ければ多段構成にする必要性が大きく減るから、スイッチ単体のコストや消費電力は増えても、トータルでは安くなるし、もちろんレイテンシーも減る。

ここに書いてあることは、この連載でも何度か取り上げた話で特に珍しいものではない

 そんなわけで、より高速、より多数のRadixを持ったスイッチの採用を志向するMicrosoftに代表されるデータセンター事業者にとって、IEEEの標準化作業は遅いという不満は当然あるわけで、それが理由でMSAが乱立することとなる。

 実際にFacebookは200G-FR4-OCPや400G-FR4-OCPを使い、Microsoftは400ZRを使っているわけだが、MSAはしばしばIEEE 802.3に準拠する形で標準化が行われているため、当初はIEEEに先んじてMSAとして標準化されても、あとからIEEEが速度や採用技術(FECや変調方式など)でフォローアップしてくることを暗黙の前提にしている。

Beyond 400G Study Groupは、800GbEと同時に1.6Tの標準化も行うべきと主張

 以上を前提に、800GbEの標準化を狙っている現在のBeyond 400G Study Groupでは、それといっしょに1.6Tの標準化も行うべきだ、との主張を行っている。

 要するに、800Gの標準化が見えてから1.6Tの標準化に向かうのは時間が掛かりすぎるので、800Gとともに1.6Tの検討も進めることで、少しでも標準化時期を早めたい、という要望である。

これは特におかしな話ではなく、まず100G×8、次いで200G×4、これらをWDMなどで1対あるいは1本に集約するというロードマップ
ただ、気持ちは分かるが、おそらく通らないのではという気がする

 この後「1.6Tの標準化を行わない理由はない」旨をとうとうと述べつつ、Study Groupの検討をPHYに絞り、MACは後送りにすることを主張している。

「脚注を付けるだけ」って、それはそうなのだろうが……
200Gレーンが標準化できれば、x8で1.6Tだから気持ちは分かる
もちろんMAC層を無視できるわけではないが、それはTask Forceで検討すべきとしているわけだ

 特に、3段目の"Even if PHY technology exists, next Ethernet speed gated by process"(もしPHYの技術が確立しているのであれば、次世代Ethernetの速度は製造プロセスで決まる)というのは、確かに現状では事実である。

 『200G×8の1.6Tbps、×4の800Gbpsでの転送実現は2023年?』でも示した以下の行ではないが、現状主流の7nm世代では200Gベースの800G(や1.6T)の実現は難しい。

 ただ、2021年あたりから本格的に生産が始まった(まずはスマートフォン用SoC向けだが、BroadcomとかMarvellは既にデータセンター向け製品の製造を始めている)5nm世代なら200Gベースの規格は現実的であり、この仕様が標準化に向かう時期には3nmとか2nm世代のプロセスが現実になっていることを考えると、これらのプロセスを使えば800G/1.6T製品の製造はかなり容易になるだろう。

太字は既に実現しているか、確実に実現できる数字と考えられる
"1.6Tも入れろ"ではなく、"≧800Gにすべき"というあたりは配慮が感じられる

 そんなわけで、この意見にも一応見るべきものはある。ということで、Recommendationとして以下の2つが挙げられている。

  • 将来のMACレートにも対応すべき
  • MACパラメータは"≧800G"のようにすべき
大原 雄介

フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/