期待のネット新技術

NVIDIAのGPU間データ伝送技術「NVLink」に見る、電気→光の移行が一筋縄では行かない例

Silicon Opticsの現状(7)

 TSMCについて前々回および前回の2回で取り上げたのは、NVIDIAが採用を発表した「COUPE」の開発元としてであった。今回は、NVIDIAのNVLinkの話をご紹介したい。

 まず最初にお断りすると、NVIDIAの現在の計画では、直近のNVLink 5やNVLink 6をOpticalに切り替える予定はなく、銅配線のまま頑張る、と表明している。「タイトル詐欺じゃないか」と言われそうだが、「現在の計画」であることに注意してほしい。つまり以前はOpticalへの移行を真剣に考えていたのである。というか、今も考えてはいるのだろうが、EthernetやInfinibandと異なり、まだCrossoverの時期ではないと判断した、というのが正確だろうか。

2022年にはVNLinkのOptical化が検討されていた

 まず、以前の話をちょっとご紹介する。ここからのスライドはHot Interconnects 2023の初日に行われた、NVIDIAのBill Dally博士(SVP Research&Chief Scientist兼スタンフォード大教授)による"Accelerator Clusters:the New Supercomputer"からのものだが、実はOFC 2022においても博士はほぼ同様の講演を行っており(この時のスライドはThe Next Platformのこちらの記事で確認できる)、2022年時点でもうNVLinkのOptical化を真剣に検討していたことが分かる。

 さて、まずは基礎である(図01)。

図01:左上がおそらくGPUカード。LogicがGPUチップで、ここでは2mmというからSilicon 2チップ構成のChipletを想定しているように思う。Blackwellあたりだろうか? 右下がNetwork Card。そこからPatch Boardを介してCabinetのSwitchに接続されるという感じだ

 GPUカードとNetwork Cardがマザーボード上に搭載され、そこからTOR Switchを経由して別のキャビネットにあるSwitchに繋がるといったケースでの距離と帯域、消費電力をまとめたものだ。これは全部銅配線、つまり電気信号ベースでの数字である。ただし電気信号の場合、いろいろな限界が存在する、というのが図02だ。。

図02:到達距離はともかく、プロセスノードを微細化するとむしろLatencyが増えるのはちょっと意外だった。縦軸がそれで、FO4(Fan-out-4:Inverterを4つ連続してつないだ構成)のLatencyである

 右はプロセスノードとLatencyの関係で、プロセスを微細化すると高速化とか高密度化、低消費電力化が期待できる(これも無条件で期待できたのは130nmくらいの世代までの話で、その後はむしろ消費電力が急増する一方であり、これをさまざまな新技術で克服して何とか低消費電力に抑えているというのが正確なところだが、それはそれとして)一方、Latencyそのものは14nm世代あたりで底を打ってやや増加傾向にあるとする。

 また、右の距離とBit Rateの関係は何度か出てきた話で、到達距離を伸ばそうとするとBit Rateはどうしても低くなるし、逆にBit Rateを上げようとすると到達距離は減る。グラフでは1mで200Gbpsが実現可能としているが、これは現在IEEE P802.3dj Task Forceで検討中の200GBASE-CR1/400GBASE-CR2/800GBASE-CR4を指してのことと思われる。

 余談だが、IEEE P802.3djはすでにTask ForceでのReviewを終了し、現在はWorking Group Ballotの段階になっている。ただ現在のTimelineだと標準化が完了するのは2026年9月頃と、まだ1年ほど掛かりそうだ。

 話を戻すと、Interposer(チップ同士の接続に利用するもの)/PCB(マザーボードとかGPUカードなどの基板)/Cable(銅ケーブル)/AOC(Active Optical Cable:光ケーブル)でのそれぞれの得失をまとめたのが図03であるが、現時点ではAOCは一番コスト面で不利であり、また消費電力も決して良いとは言えない。

図03:もっともAOCのコストが高いのは、光ファイバーの両端で光/電気信号の変換をやっているから、という話は確かにある

 まぁこれはAOCだからで、Passive Optical Cableならもう少しマシにはなると思うのだが、今のところ他と比べて明確に有利なのは到達距離だけである。ただここでDWDMを併用したCPOを利用した場合、問題が大幅に改善して現実的な選択肢になる、と主張する(図04)。

図04:勿論これは逆に言えばDWDMを利用する意味があるbit幅を利用する前提であって、例えば元々1bitの幅のものをGearboxにして16bit幅とし、16波長のDWDMとかにしても効果は薄そうではあるが

 コストは銅ケーブルと同等まで落ち、帯域は銅ケーブルより遥かに大きく、それでいて消費電力も下がることから、途端に魅力的な選択肢になり得るというわけだ(もちろん、信頼性というかBERに関しては検討の余地があるのだが)。では、実際にそれをGPUとかSwitchに実装する場合どうなるか? というコンセプトが図05となる。

図05:これは要するに「既存のGPU/Switchを光化する」という感じであって、最初から光を前提としている感じではないのだが、2022年当時だとまだChipletがそこまで進化していなかったから、という理由もあるのかもしれない

 あくまでもコンセプトではあるのだろうが、なかなか無茶な構成ではある。PIC/EICをGPU/Switchのそばに配し、間を空中配線で繋ぐというのは量産ではありえない構成ではある。今ならEIC/PICのダイとGPU/Switchのダイを同じパッケージに収め、間をInterposerでつなぐ形になるだろう。

 それはともかくとして、それぞれのPICからの出力はMTP Connectorに繋がり、あとはMTP Connector同士を光ケーブルでつなぐ、という形の実装になる。なんとなく明らかにSwitchの方のConnectorが足りない気はするのだが。それとLaser Sourceはカードの後ろ側に取り付ける形になっている。これを集積する構図が図06だ。

図06:恐らく深い意味はないのだろうが、GPUもSwitchも9枚ずつ並んでいるというのはあまり聞いたことのない構成。普通は偶数というか2のべき乗枚であろう(いや9枚のうち1枚は冗長用...というのは穿ちすぎか?)

 もちろん、実際にはこんな高密度での集積は不可能(そもそもGPUもSwitchも、熱伝導プレートどころかヒートシンクすらついてないので、通電した瞬間にチップが熱で死にそうだ)だが、まぁ、言いたいことは分かる。

 さて、肝心なのはここからだ。先にCPOをDWDMで使うという話だったが、構成はこんな感じだ(図07)。データ8本+クロックで合計9波長をLaser Sourceで生成、Micro Ring Modulatorを利用して多重化/多重分離を行う格好だ。

図07:なぜCWDMではなくDWDMなのかという疑問は残るところ。もっとも今は8波長だが、この先多重化を増やしてゆく時に、CWDMだと美味しい(光ファイバーでの減衰が少ない)ところに収まりきらない可能性が高いから、というあたりかもしれない

 面白いと思ったのは、信号は25Gbpsどまりで、つまり25GT/secのNRZと思われ、8波長で200Gbps/Laneという速度になることだろうか。2022年頃だから、まだ25GT/secのPAM4だと変調/復調やエラー訂正などに結構大規模な回路となってしまうことを嫌がったのかもしれない。もう1つ理由があり、この200Gbpsという信号速度はNVLink Gen5とマッチさせるものだった。下の表はNVLinkの仕様をまとめたものである。Gen1~Gen3はSingle Ended Signalingだったが、Gen4からPAM4変調を採用した関係でDifferential Signalに変更され、なので配線数は倍増している。

信号速度変調バス幅転送速度(Udir)Link数
Gen120GT/secNRZ8bit/dir20GB/sec4
Gen225GT/secNRZ8bit/dir25GB/sec6
Gen350GT/secNRZ4bit/dir25GB/sec12
Gen450GT/secPAM44bit Diff/dir25GB/sec18
Gen5100GT/secPAM44bit Diff/dir50GB/sec18

 それはともかくとして、実質的な信号1本あたりの速度は20Gbps→25Gbps→50Gbps→100Gbps→200Gbpsと世代毎にどんどん高速化しているのが判る。このGen5というのはBlackwell世代のものだが、2022年の時点ではまだHopper(NVIDIA H100/H200)世代であり、NVLink Gen4が利用されていた。なので次世代のBlackwellに採用されるGen5の信号をOpticalで置き換えることを考えた場合には、200Gbpsの信号が必要になるという判断である。

 加えて言えば、WDMを使うとEthernetの場合のようにGearboxが不要である。200G Ethernetであれば25Gbps×8の電気信号を200Gbps×1に変換して送り出す(あるいは200Gbps×1を受け取って逆に25Gbps×8に変換する)必要があるが、WDMなら25Gbpsのまま送受信できるから、Gearboxが不要というメリットもある。

 このOptical Engineを実際に搭載する想定図というのが、図08である。

図08:NVLinkのLane数が合っていない(Blackwellは18)が、これは2022年当時の想定ではまだ24だったからかもしれない

 GPUに2組のOE(Optical Engine)が搭載され、ここからNVLink Switchに光ファイバーで接続されるという構図だ。24本のNVLinkを搭載し(ということは、OEあたり12対24本の光ファイバーが出る計算になる)、トータルで片方向あたり4.8Tbpsなので1本あたり200Gbpsという計算になる。

 OEの大きさは5mm×10mm程度とされるので、HBMの半分くらいの体積となる。これを見ていると、OEの構造は下にPICが搭載され上にEICが載る格好で、PICにTSVが設けられ、InterposerからTSV経由でまずEICに信号が渡り、そこからPICに信号が渡されるというTSMC方式に近い。この際の必要となるエネルギーの想定値が、図09となる。

図09:WDMを利用するため、Modulator(MRM)の制御は必要であるが、あとはそもそもNRZの信号だし速度も変更が無いので、EICの消費電力が1pJ/bitで済んだという可能性が高い。あとHostとのI/F部がどちらも0.25pJ/bitというのは、Silicon Interposerを想定しているものと思われる

  トータルで3.5pJ/bitというのは、NVLink Switchまでの伝達で考えると、かなり良い数値と考えられる。

 Link Budget、つまり経路での信号損失に関しての算出もあり、トータルで-12.7dBほど。そこに2dBのマージンを乗せて、PD(Photo Detector)の感度は-14.7dBあれば良いとされている(図10)。これは比較的容易に実現できる数字だし、PAM4とかならともかくNRZだったらSNRも比較的高く取りやすいので、実現への支障も少なそうだ。

図10:しいて言えばTX OutputからRX inputまでの損失が1dBで本当に済むのか? というのはちょっとだけ疑問。ファイバーのみならずFAU(Fiber Attachment Unit)部の損失も考える必要があるからだ。ファイバーの損失は距離次第なので、数mならこれで済む可能性はあるが

 計画では今後、1600Gbps(双方向:片方向だと半分)まで転送レートを引き上げる計画になっていた。それでもギリギリまで信号速度そのものは25GT/secに留め、波長の多重数を倍増する方向を考えていたようだ(図11)。

図11:なんで800Gbps以上でChannel Spacingがむしろ大きくなる(100GHz→150GHz)のかは謎。あとMRMの直径を800Gbps以上では現在の20μmから10μmに小型化するとしている。あるいはこれがChannel Spacingを広げる理由だろうか?

 そして2022年の時点で、既にさまざまなDOE(Design of Experiments)が実施されていたことも明らかになっており、実現不可能な技術を並べていたわけではなく、それなりに確度の高い積み上げを行っていたことを伺わせる。

図12:これがどこのFabを使ったのか、が問題。状況的にはGlobalFoundriesの第1世代Fotonixな気がするのだが

2025年に発表された予想外の方針転換、原因はFotonixのトラブルか?

 さてここまで見てきたように、少なくとも2023年の時点まで、NVIDIAはNVLinkのOpticalへの移行を真剣に検討していたことが分かる。そして2025年にNVIDIAがまずSpectrum-XとQuantum-XにCOUPEベースのCPOを採用することを発表した時点で、「次はNVLinkだ」と予測したのは筆者だけではなかった。

 さて今年のHot InterconnectsでNVIDIAは"Building Custom AI Infrastructure with NVLink Fusion"という発表を行った(図13)。

図13:NVLink Fusionは次世代のVera/Rubin世代から利用できる。ただしNVLink SwitchそのものはNVIDIAのものを利用する必要がある。ここで商売しようという事か?

 NVLink Fusionは要するにNVLink ProtocolをNVIDIA以外でも利用できる様にするための取り組みで、具体的にはNVLink I/F Chipletを(NVIDIAが提供するのか、NVIDIAがIPを提供して顧客が製造するのかはともかく)を顧客のCPU/GPUとUCIe経由で接続する事で、「NVIDIAのCPUと顧客のXPU」あるいは「顧客のCPUとNVIDIAのGPU」といった混在環境を構築できるようにするという取り組みである。

 こちらの詳細は今回の記事の趣旨から外れるので省くが、重要なのはこのNVLink Fusionも電気信号ベースになるということだ。これについて発表者であるKrishnan Geeyarpuram氏(Senior Distinguished Engineer)に"Are there any plans to switch NVLink to optical cable? Will NVLink 6 continue to use copper?"という質問を投げたところ、返事は"NVLink6 uses the same copper cabling, NVLink spine, and MGX rack architecture (named Oberon rack in our roadmaps) as Blackwell with NVLink5. The goal is to remain in copper for scale-up, for as long as we can, while still being able to meet the performance, power, and latency design goals."という事で、NVLinkは可能な限り電気信号を使い続ける方針になったことが告げられた。少なくともNVLink 6は電気信号なのは確定であり、この返事だとNVLink 7も怪しい。可能性があるとすればNVLink 8以降だろうか?

 2003年から2025年の間に、どうしてここまでの方針転換があったのかは不明である。1つ可能性を挙げるとすれば、実は2022年当時NVIDIAはGlobalFoundriesのFotonixを利用していた。というのはGlobalFoundriesの2022年3月のプレスリリースによれば、Fotonixの第1世代のパートナー企業の中にNVIDIAの名前がちゃんと記されていたからだ。ここから考えると、そもそもSpectrum-XやQuantum-XがTSMCのCOUPEを利用していることが奇妙であって、ということはFotonixに何か問題があったのか、もしくはOptics以外の要因でCOUPEが選択されたのか、ということになる。

 どちらにしても、Fotonixベースで推進していたと思われるNVLinkの光化には障害になった、という事なのかもしれない。結果として暫くNVLinkは電気信号のまま頑張らざるを得なくなったことそのものは間違いない。単純に電気信号→光信号に進めるわけではないという事情を垣間見る思いである。

大原 雄介

フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/