期待のネット新技術

Silicon OpticsにおけるCPOの問題と、別の選択肢として期待を集めるLPOの諸問題

LPOとLRO(1)

 前回まで8回(プラス番外編1回)にわたって、Silicon Opticsの現状を紹介してきた。Silicon Opticsの話はまだ続けようと思えばいくらでも続けられるのだが、そろそろNetworkと段々かけ離れる話になってくるのでこの辺で一旦打ち切って、その中で出てきた周辺の話題を紹介したい。

 第2回の中で、さらっと出て来たのがLPO(Linear-drive Pluggable Optics)である。この時はCPO(Co-Packaged Optics)の話がメインだったのでLPOについてはFiberMallの当該記事を紹介すると共に簡単に説明するに留めたが、改めて紹介したいと思う。

第2回で掲載したLPOの図。DSPを1か所に集約することで消費電力の若干の低下を実現させているが、未だに標準化の道筋が立っていない。出典はBroadcomが2024年3月に公開した"Enabling AI Infrastructure Investor Meeting"

CPOが抱える「連続運用してみないと分からない」問題

 CPOの欠点は、第2回の中でも指摘したがOptical ModuleがChipletの形でASICパッケージ上に固定されてしまうことだ。CPOの場合、EIC(Electrical IC)とPIC(Photonics IC)がタイトに接続されており、これを分離させる構造にするのは精度と強度の両面から不可能である。ではCPOそのものを分離できるようにできないか? という話であるが、ASICとCPOの間は微細な配線を利用しており、これもやはり精度と強度の両面から極めて困難である。

 NTTのIOWN 2.0で採用されたPEC-2の構造は一見CPOを分離できているように見えるが、EICの側にDSPが入る構造になっているというのは、すでに説明した通り。要するにこの構造だとDSPが減らないから、本来のCPOのメリットである、「ASIC側にDSPで全ての処理を行うことで省電力化を図る」がまるで生かせないことになっている。先の記事でも説明したように、あれはSwitch ASICの脇に無理やりPluggable Transceiver Moduleを装着したものであり、通常のModule(例えばQSFP-DD 800G)では幅が広すぎて装着できないので独自規格のものにしたというだけである。その意味では単に独自規格のTransceiver ModuleをSilicon Opticsで製造したという話でしかなく、CPOとは別物である。

 欠点の話に戻るが、CPOの現在の問題は以下の2点あたりが最大の問題となっている。

  • 利用できる規格がCPOのPICによって一意に決まってしまう
  • EICないしPICが故障した場合でも、ASICそのものの交換(=Switchを搭載する基板の交換)になってしまう

 前者については、理屈から言えば利用する波長帯(850nm/1310nm/1550nm)は外部からのLaser Source Moduleを交換することで複数波長帯に対応可能だし、送信の方はMRM(Micro-Ring Modulator)ベースであればパラメータを変更することで、あるいは複数規格に対応できるかもしれない。しかし、受信の方のPD(Photo Detector)は、まだ複数波長に対応できるものが少ない(広帯域のPDは感度とかSNRなどの特性がどうしても甘くなるので、100~200Gbpsの規格を満たすのは困難であり、それぞれの波長に特化したものを利用せざるを得ない)。

 また、現状のCPOではEICよりOICの方が面積的に大きくなっており、複数の波長に対応できるように複数規格のPDやら何やらを集積すると、CPOのサイズが大型化する。さらに言えばコストも跳ね上がることになる。少なくとも現状のPICでは、複数波長に対応させるのは無理と考えられる。

 後者も地味に問題であって、これまでだったら問題を起こしたPluggable Transceiver Moduleだけ交換すれば済んだのが、今度はSwitchそのものの交換になる。交換の手間もコストも跳ね上がるわけで、連続運用を考える場合は、Switchそのものの冗長構成を多めに確保しないといけないということになりかねない。

 もちろんこれは、故障率がどの程度かによって変わってくる話でもあるので、まずは連続運用してその際の故障率を確認するところから始めないといけないのだが。そんなわけでユーザーの側としてもまだ全面的にCPOを採用するのは難しく、当面は試験運用的に使いながらデータを収集するという形にならざるを得ない。その意味では、NVIDIAが今年後半~来年後半にかけてCPOバージョンのSpectrum-X/Quantum-Xを投入するというのは、割と勇気ある決断と言わざるを得ない。

課題はありつつも、一部で期待を集めるLPO

 さて、業界ではこのCPOに行く手前として、まず暫定的なソリューションとしてLPO(Linear Pluggable Optics)を導入したい、という機運が「一部で」高まっている。2024年3月に開催されたOFC 2024においては
OpenLight/Spirent/Accelink/Terasignal/NewphotonicsらのメーカーによるLPOのデモが行われたことが動画で示されているほか、Broadcom/MACOMなどのメーカーもLPOのソリューションを発表した事がリリースで示されている。このOFC 2024の開催(2024年3月26~28日)直前に公開されたのがLPO MSAの結成で、2024年3月21日に以下の12社が創立メンバーとなっている。

  • Accelink
  • AMD
  • Arista Networks
  • Broadcom
  • Cisco
  • Eoptolink
  • Hisense
  • Innolight
  • Intel
  • MACOM
  • NVIDIA
  • Semtech Corporation

 今年3月には100G-DR-LPOの仕様が、今年9月には400G-FR4-LPOの仕様がそれぞれ公開されており、またこれに先立って最初のマルチベンダー相互接続性試験が成功した事が2024年9月にアナウンスされている。

 LPOの基本的なアイデアは、これまでPluggable Transceiver Moduleに搭載されていたDSPを、ASIC側に肩代わりさせるというものである。

LPO-MSA"Paper: Link Diagnostics in LPO Applications"より抜粋して作成。要はPMA層がASIC側に吸収された形。ただこの結果、PMAとPMDのI/Fという新たな要素が生まれてしまった(これまでは一体化されていてあまり問題になっていなかった)

 これにより、CPOの問題とされていた以下の2点が解決された。

  • 異なる波長/変調方式であってもModuleの交換だけで対応できる
  • 故障時の交換が容易になる

 また、従来のPluggable Transceiver Moduleで問題だった消費電力の多さが低減される(消費電力の半分弱を占めるDSPが不要になったことで、その分消費電力が削減できる)。その一方で、「Module側にDSPを搭載しないので、原理的にGearboxが利用できない。なのでPMAとPMDの間の電気信号の速度や変調方式は、最終的な光信号の速度/変調方式と同じにしないといけない」という制約が発生する。

 この結果、ASICとModuleの間の配線距離はPluggable Transceiver Moduleを使っていた場合と同じく長めになる。なので以前Broadcomが示したこの問題、つまり電気信号を長く引き回すことに起因する挿入損失を減らすという問題そのものは、引き続き解決されないことになってしまう。

 実のところこの問題があるが故に、2024年の時点では100Gbps/λに関してはLPOが使えるが、200Gbps/λに関しては難しいとみているベンダーがかなり多かったし、2025年についてもまだ悲観的なベンダーは少なくない。ただ幾つかのベンダーは「ひょっとして行けるかも」という態度に変わっている。何故かと言えば、配線の挿入損失は配線とかPCB、ケーブルの材質の改善によって多少低減できる可能性があり、このあたりに希望を見出しているらしい。

 ただ、こういう改良された材料はコスト増にもつながるだけに、正直まだ200Gbps/λでもLPOを実現できる、とは断言しにくいところがある。特に配線長が500m以内の規格であれば、配線部の挿入損失によって送受信信号の低下があってもカバーできるが、2kmとか10kmの規格になると、特に受信側がクリティカルになるので、実現の可能性は低そうに思える。

 実際、2023年頃には2km以内の光配線がLPOに置き換えられるという目標が語られたのに、仕様は500m以上と大分距離が短くなってしまったのは、100Gbps/λでも遠距離向けだと信号損失が無視できない事の表れでもある。多分100Gbps/λで2km程度まで利用できるようにならないと、200Gbps/λは厳しいだろう。

インプリメント関連など、LPOがほかにも抱える諸問題

 これに加えて、実際のインプリメントにも問題がある。まず100G-DR-LPOはIEEE 802.3cu-2021で定められた100GBASE-DR相当の規格であるが、その100GBASE-DRのTransmit characteristicsと、100GBASE-DR-LPOのOptical Transmit Specificationを比較すると

  • Signaling rateの誤差が異なる
  • Extinction ratioが異なる
  • RINxOMAの値が異なる
  • Optical return loss toleranceの値が異なる

 という具合に、「普通に通信する分には問題なさそうだが、状況が悪化した時に突如通信できなくなり、しかも理由が判らない」という、ものすごく嫌なパターンが想定される。

IEEE 802.3cu-2021のTable 140-6より(実際は2ページに渡っている内容を1つにまとめている)。ちなみにReceive characteristicsも微妙に異なっている
100G-DR-LPO Specification 1.0のTable 13より。そもそもなぜ微妙にパラメータが違うのか、の説明はどこにもない

 実際100G-DR-LPOのIntroductionによる説明は"The 100G-DR-LPO specification provided in this document is optimized for data-center specific needs and broadly maintains interoperability with standard 100G per lane DSP based LR SerDes."というもので、100Gbps/λのLR向けの「標準的な」PHYと互換性を持たせたとは書いてあるが、100G-DR-LPO以外の特定の規格との互換性を保証するものではない。先に述べた相互接続性試験も、100G-DR-LPO同士での通信であって、なので既存の100GBASE-DR/LRとの混載に関してはユーザー任せというか自己責任モードになってしまっている。

 これは、今年9月にリリースされた400G-FR4-LPOも同じで、中身的には100GBASE-DR/LRの光学系であるが、波長を1271/1291/1311/1331nmとした4波長のCWDM構成になっているだけで、到達距離もFRとついている割に500m以内になっている。

 あと、当然ながらLPOを使うにはASIC側がLPOに対応している必要がある。これはSwitchとEthernet Cardの両方で対応が必要であり、既存のPluggable Transceiver Moduleと同じModule構造で提供されていても使えない、ということが起こりえる(というか実際にそうなっている)。

 このLPOの問題のうち、インプリメントに関わる部分を解決しようというのがLROであるが、こちらは来月ご紹介したい。

大原 雄介

フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/