ニュース

「さくらのAI Engine」提供開始、複数の基盤モデルに対応した生成AI向け推論API基盤

 さくらインターネット株式会社は9月25日、生成AI向け推論API基盤「さくらのAI Engine」の一般提供を開始した。「さくらのクラウド」のコントロールパネルから利用可能で、大規模言語モデル(LLM)をはじめとする基盤モデルを、API経由でアプリケーションへ組み込み可能になる。

 提供開始に合わせて、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」の名称が、生成AI向けビジネス基盤「さくらのAI」へ変更される。

 「さくらのAI Engine」は、同社の生成AI向けクラウドサービス「高火力」を基盤とし、下表に示す提供仕様のように、APIを通じて国内外の複数の基盤モデルやRAG(自社に蓄積された文書や外部知識を検索し情報を抽出したうえで、それに基づいてLLMに回答を生成させる技術)の機能を提供する。

「さくらのAI」全体イメージ

 計算基盤やネットワーク構成なしで、クラウド上の実行環境を利用できる点、各種AI機能をREST APIとして提供することで、アプリケーションへの組み込みやプロトタイプ開発が容易になる点、RAG機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応できる点が特徴として挙げられている。

 また、同社が運営する国内のデータセンターで構成されたインフラ上で、基盤モデルを選択可能なため、機密情報や個人情報を国内で取り扱うことができることも特徴としている。これにより、公共分野や高いセキュリティ要件が求められる業種でも安心して導入できるという。

提供仕様
サービス類型基盤モデル
Chat completionsgpt-oss-120b
llm-jp-3.1-8x13b-instruct4
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-480B-A35B-Instruct-FP8
Audio Transcriptionwhisper-large-v3-turbo
Embeddingsmultilingual-e5-large
ドキュメント(RAG)

料金プランは上限あり/なしの2通り

 料金プランは「基盤モデル無償プラン」と「従量課金プラン」の2種類が提供される。両プラン共通の無償利用枠を超過した場合、「基盤モデル無償プラン」ではAPIリクエストに対してレート制御がかかり、「従量課金プラン」では超過利用分への料金が発生する。

 なお、「基盤モデル無償プラン」は申し込み数に上限があり、上限に達した場合は新規の申し込み受付が停止される。

「基盤モデル無償プラン」および「従量課金プラン」共通の無償利用枠
サービス類型1カ月あたりの無償枠数
Chat completions3000回
Audio Transcription50回
Embeddings10000回
ドキュメント(RAG)
従量課金プラン
サービス類型基盤モデル無償利用枠の超過料金
Chat completionsgpt-oss-120bInput:0.15円/10000トークン
Output:0.75円/10000トークン
llm-jp-3.1-8x13b-instruct4Input:0.15円/10000トークン
Output:0.75円/10000トークン
Qwen3-Coder-30B-A3B-InstructInput:0.15円/10000トークン
Output:0.75円/10000トークン
Qwen3-Coder-480B-A35B-Instruct-FP8Input:0.3円/10000トークン
Output:2.5円/10000トークン
Audio Transcriptionwhisper-large-v3-turbo0.5円/60秒
Embeddingsmultilingual-e5-largeInput:2円/10000トークン
Output:無料
ドキュメント(RAG)3円/100チャンク