期待のネット新技術

PSM4とCWDM4で1.6Tb/secを実現しつつ到達距離を延長する「800G Pluggable MSA」

【光Ethernetの歴史と発展】

 Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。

 【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。

「光Ethernetの歴史と発展」記事一覧

「400GBASE-SR4」の50mでは到達距離が不足、800GではPSM4とCWDM4を用意

 前回の最後で解説した通り、「400GBASE-SR4」は到達距離を30~50mに絞った上で100G×8で行くこととなったわけだが、前回のデータセンター向けシナリオでいう「Scenario 2(TOR⇔Leaf)」は100~500m、「Scenario 3(Leaf⇔Spine)」は2kmほどの到達距離が必要で、50mでは全然足りない。

 400Gの時代は、Scenario 2を「400GBASE-DR4」で、Scenario 3を「200GBASE-FR4」×2でカバーするかたちで構成されていた[*1]らしいが、これを800Gで置き換える必要がある。

[*1]……CTTLかBaiduあたりがあやしいが、どこのデータセンターをもとにした構成例かは謎だ

 これに対して「800G Pluggable MSA」では、以下のようにPSM4とCWDM4の2種類を用意した。PCSが400G×2という構成になのは800G SRの場合と同じだ。

PSM4とCWDM4の使い分けは後述。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 大きな違いはPMDで、MSAでは200G PAM-4、つまりクロック信号112Gに対してPAM-4変調を掛けるかたちでの実装を決めたとしている。光ファイバーが4本ならPSM4となるし、WDMを利用して4波長を1本のファイバーに押し込めばとCWDM4になるわけだ。

 つまり、あとはどちらの方式を選ぶかということだけで、技術面というより利用のされ方次第だ。そして、レーンあたり200G×4という構成とした理由について、ホワイトペーパーでは「将来の1.6Tb/secへの拡張を見据えたもの」とされている。

トータル16本のPSM4に対し、CWDM4なら4本で1.6Tb/secを実現

 800G SRの方は、片側あたり8レーンでファイバー16本だから、これを1.6Tb/secに引き上げるとファイバーが32本になってしまい、現実的ではない。ところが800Gを4レーン8本で実現できれば、そのまま2つ並べて1.6Tb/secにしてもPSM4の方式でトータル16本、CWDM4なら4本で済み、はるかに現実味が増す。

 特にCWDM4の方については、もしCWDM8が現実的になるのなら、ファイバー2本のまま1.6Tb/secが実現できる可能性もあるわけで、そうした展開を想定してということのようだ。

 もっともホワイトペーパーでは、「これを実現するためには、業界でより広帯域なトランシーバー用のコンポーネントを開発する必要があり、ここにはADC(Analog/Digital Converter)やDAC(Digital/Analog Converter)が含まれる。また、モジュールの消費電力をパワーエンベロープ内に収めるために、より微細化されたプロセスで製造され、省電力で稼働するDSPが必要」との但し書きが入っている。

 加えて言えば、そのDSPを利用することによって、省電力のまま実現可能な信号補正アルゴリズムや新しいFECの開発までが含まれている。何というか、実現には時間が掛かりそうな話である。もう1つ書いておけば、このホワイトペーパーが公開された2019~2020年は、すでに7nmプロセスは量産に入っている状況で、5nmですらデザインインしている(さすがにテープアウトはまだしていない)時期である。

 この時期にあえて「the DSP chips will be designed in CMOS process with lower nm node」という言い方をするのは、7nmプロセスでは消費電力が大きすぎて無理で、5nm(TSMC N5/N5P)ですら怪しいため、MSAではその先、TSMCなら4nmのN4、あるいは3nmのN3あたりを想定しているように読める。

 Broadcomは、5nm(TSMC N5)を利用した112G SerDesを含むASIC向けポートフォリオを2020年11月に発表したが、224G SerDesだと5nmでも厳しそうなので、やはり本命は3nmあたりと考えられる。だとすると、サンプル出荷が2022年、量産開始は2023年といったスケジュールになりそうだ。なので、2022年中にこれに対応できるサンプルが登場するかどうか、というあたりではないかと思う。

データレート倍増で3dBほど悪化するSNRをFECで補う

 話を戻すと、そうした実装をどのように行うか以前に、そもそも200G PAM-4で技術的に伝達が可能なのか? という議論がある。まず、Power Budgetに関して言えば、IEEEで提供されているモデルに従い、以下の図のように計算されるとした上で、受信器の経年変化や結合損失などを加味すると、受信側の感度は-5dBmが必要とされる。

ホワイトペーパーでも言及されているが、TDP(Transmitter Dispersion Penalty:送信器分散ペナルティ)は100Gよりも相当大きくなると仮定した上での3.9dBとのこと。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 また、データレートが100Gから倍増すると、SNRはおおむね3dBほど悪化すると考えられるため、これをFECで補う必要がある。FECは従来、「100GBASE-KP4」のもの、つまりRS(544,514)を利用してきたが、この上位へ、つまりRS(544,514)をラップするかたちで、別のFECをもう1つ追加することで、エラーレートを引き下げることが検討された。

 シミュレーションと実験による検証が実際に行われ、以下のような結果となった。FECを追加してBERを「2.0E-3(2.0×10^-3)」から「2.0E-4」までに改善しても受信ができることが確認できたとしている。ちなみに、図中の「Simu」がシミュレーション、「Exp」が実験結果での結果を表している。

右のシミュレーションではFFEだけで目標値を達成しているが、左の実験での結果では、発生するシンボル間干渉をMLSEで補正することで、-5dBmで1.0E-3程度のBERを確保可能だと確認できている。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 また、「FFE」は「Feed Forward Equalizer」の略で、シンボル間干渉を防ぐためのMLSE(Maximum Likelihood Sequence Estimation)を併用した場合としない場合を比較したものだ。併用しないと2.0E-3止まりのBERが、MLSEを利用することで受信感度が-5dBmでもほぼ2.0E-4、0dBmだと1.0E-4に近いところまで下げられる目途が立ったわけだ。

 MSAによれば、このFFEとMLSEの処理はDSP内部のロジックで対応可能なものなので、(DSPが実現可能なら)200Gでの通信は現実的、としている。

モジュールの内部構造はノイズ除去性能に優れたMCM構成を推奨

 次にホワイトペーパーで言及されていたのが、モジュール内部の構造(以下左)である。従来(以下のSolution A)は、DSPの出力からドライバーまで、基板上でかなり長く信号を引き回すことになる。これに対してMSA(以下のSolution B)では、DSPの基板の上にドライバーまで載せてしまう、いわゆる「MCM(Multi-Chip Module)」構成を推奨している。

そもそも配線長が短いので、ドライバーの配置だけが問題ではないようにも思える。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 そして右のグラフが、この2つのパッケージに対し、S21 simulation(Sパラメータと呼ばれる、信号反射の度合いを示す値を利用する電気回路シミュレーション)を行った結果だ。なお、S21では、左図で赤く示された配線で、DSPの出力からDRVの入力に正しくわたる電力の比率をシミュレーションする。

 グラフの横軸は周波数、縦軸は減衰率(dB)で、Solution A、つまりモジュールのパッケージ上を長く信号を引っ張りまわした場合、60GHz付近で結構激しく減衰している(45GHz付近もやや落ち込んでいるが)ことが分かる。これはナイキスト周波数(ある信号のサンプリング周波数の1/2。今回で言えば112Gの信号が通るので、その1/2の56G付近)を超えると「Aliasing」と呼ばれる、信号が折り返される現象が発生し、これがノイズ源になるためだ。

 通常は、Anti-Aliasing Filterを挟むことで、これを除去するわけだが、回路を見直して除去なり軽減ができるなら、その方が効率はいい。MSAでは、モジュールを構成する場合は、DSPと同じパッケージにドライバーまでを統合することで、より効率的な実装ができると提言しているわけだ。

新しいFEC、およびFRとDRの使い分けについての検討も進む

 新しいFECについての検討もある。以下の図は、800G対応PMAの間だけを新しいFECにする案(Terminated)と、そもそもPMDの間を全部新しいFEC(KP4)でカバーする案(Concatenated)を比較したものだ。

TerminatedもConcatenatedも、新しいFECでエンコード/デコードする手間は変わらず、KP4 FECのエンコード/デコードが入るかどうかになるため、Concatenatedの方が有利だろう。出典は800G Pluggable MSAの"ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES"

 Terminatedでは、PMDの段階で一度KP4 FECを復号し、そののちに新しいFECでエンコードし直して送信、受信側でこれを復号してから改めてKP4 FECでエンコードし直すというやり方だ。

 一方のConcatenatedは、KP4 FECでエンコードされたデータに対し、PMD内でさらに新しいFECを用いてエンコード、受信側は受け取ったデータをまず新しいFECでデコードし、その結果をPCSに返す(ので、ここではKP4 FECでエンコードされたかたちとなる)という仕組みだ。この両方を検討した結果、MSAはConcatenatedの方がレイテンシーと消費電力の両面で有利、という結論を出している。

 ちなみにホワイトペーパーでは、新しいFECをどうするかは、まだ決めていないとしつつ、候補としては単一誤り訂正を持つ「ハミング符号」と、二重誤り訂正を持つ「BCD符号」の2つがあり、どちらもオーバーヘッドは6%程度なので、「2.0E-3」以上のBER閾値を確保できる、としている。レイテンシーとしては10Kbit相当で、時間で言えば50nsほどなので十分に許容範囲というのが、MSAの見解である。

 最後にFRとDR、というかPSM4とCWDM4の使い分けについて。MSAによれば、500mの距離ではやはりファイバーのコストが問題になるので、当初はCWDM4を使った、いわば800G-FRの構成が先に出てくると見ている。

 冒頭のサーバー向けで言えばScenario 3にあたる。ただ、100m程度の範囲で収まるScenario 2では、ファイバーのコストが相対的にそれほど厳しくない。ここではPSM4の方が一番安く、かつ低消費電力(WDMのMux/Demuxを挟む必要がない)ので、市場が熟してくれば「800G-DR4」として立ち上がる可能性があるだろう、としている。

大原 雄介

フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/