ニュース

富士通、LLMの軽量化・省電力化と特定用途への特化を実現する「生成AI再構成技術」を開発

ハイエンドGPU4基を必要とするモデルをローエンドGPU1基で

 富士通株式会社は9月8日、大規模言語モデル(LLM)の軽量化・省電力化を実現するAI軽量化技術の「生成AI再構成技術」を開発し、同社が提供するLLM「Takane」を強化することに成功したと発表した。

 後述するコア技術のうち「量子化技術」を「Takane」に適用することで、メモリの消費量を最大94%削減する「1ビット量子化」を行った状態で89%という高い精度維持率と、量子化前と比べて3倍の高速化を実現したという。これにより、ハイエンドのGPU4基を必要とする大型の生成AIモデルを、ローエンドのGPU1基で高速に実行することが可能となったという。

 同技術の開発背景には、LLMの大規模化で高性能なGPUを求められることに起因する、開発・運用コストの増大や高い消費電力による環境負荷といった課題があったという。同技術での軽量化によって、スマートフォンや工場の機械といったエッジデバイス上でのAIエージェントの実行を可能とし、リアルタイム応答性の向上やデータセキュリティの強化、AI運用における省電力化を実現するとしている。

 同技術は、生成AIの思考の基となる膨大なパラメーターの情報を圧縮する「量子化技術」と、不要な知識の圧縮やデータの追加で、特定の用途に特化したモデルを作成する「特化型AI蒸留技術」の2つのコアとなる技術からできている。

 開発にあたっては、学習や経験、環境の変化に応じて神経回路を組み替え、特定のスキルに特化していく人間の脳の再構成の能力から着想を得たという。AIエージェントが実行するタスクの多くは、LLMが持つ汎用的な能力のごく一部しか必要としないといい、巨大なモデルから、特定の業務に必要な知識だけを効率的に抽出し、効率が良く信頼性の高い専門家の脳のような特定の用途に特化したAIモデルを作り出す。

量子化技術

 量子化技術では、生成AIの思考の基となる膨大なパラメーターの情報を圧縮し、生成AIモデルの軽量化や省電力化、高速化を実現する。

 従来の圧縮手法では、LLMのような層が多いニューラルネットワークにおいて、圧縮の過程で精度に影響を与える量子化誤差が指数関数的に蓄積することが課題だったという。同社ではこの課題を解決するため、層をまたいで量子化誤差を伝播させることで増大を防ぐ新たな量子化アルゴリズム「QEP」(Quantization Error Propagation)を開発した。これに加え、同社が開発した大規模問題向けの最適化アルゴリズム「QQA」(Quasi-Quantum Annealing)を活用し、もとは32ビットまたは16ビットであったLLMのパラメーターの情報を、1ビットに圧縮している。

特化型AI蒸留技術

 特化型AI蒸留技術では、まず特定の用途向けに不要な知識をそぎ落とす「Pruning」(枝狩り)に加えて、新たな能力を付与するTransformerブロックの追加などを行い、多様な構造を持つモデル候補群を生成する。次に、これらの候補の中から、「代理評価(Proxy)技術」を用いた「Neural Architecture Search」(NAS)により、GPUリソースや速度などの顧客の要望と精度のバランスが取れた最適なモデルを自動で選定する。最後に、選定されたモデルに「Takane」などの教師モデルから知識を蒸留する。

 この技術により、単なる圧縮に留まらず、特化したタスクでは基盤の生成AIモデルを上回る精度を達成できるという。

 同社が行った顧客関係管理(CRM)データを用いて各商談の勝敗を予測するテキストQAタスクの実証では、推論速度を11倍に高速化しつつ、精度を43%改善できたという。ここでは、教師モデルを超える精度を、より軽量な100分の1のパラメーターサイズの生徒モデルで実現しており、必要なGPUメモリと運用コストをそれぞれ70%削減するとともに、より信頼性の高い予測が可能になったとしている。

 また、画像認識タスクにおいては、未学習の物体に対する検出精度を、既存の蒸留技術と比較して10%向上させることに成功したという。

 同社は、量子化技術を適用した「Takane」のトライアル環境を、2025年度下期から順次提供予定としている。また、Cohereが公開している研究用オープンウェイト(自由に利用できる事前学習済みのAIモデル)の「Command A」を同技術で量子化したモデルを、Hugging Face上で公開している。