ニュース

「さくらのAI Engine」提供開始、複数の基盤モデルに対応した生成AI向け推論API基盤

渡邊悠太

2025年9月25日 14:30

　さくらインターネット株式会社は9月25日、生成AI向け推論API基盤「さくらのAI Engine」の一般提供を開始した。「さくらのクラウド」のコントロールパネルから利用可能で、大規模言語モデル（LLM）をはじめとする基盤モデルを、API経由でアプリケーションへ組み込み可能になる。

　提供開始に合わせて、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」の名称が、生成AI向けビジネス基盤「さくらのAI」へ変更される。

　「さくらのAI Engine」は、同社の生成AI向けクラウドサービス「高火力」を基盤とし、下表に示す提供仕様のように、APIを通じて国内外の複数の基盤モデルやRAG（自社に蓄積された文書や外部知識を検索し情報を抽出したうえで、それに基づいてLLMに回答を生成させる技術）の機能を提供する。

「さくらのAI」全体イメージ

　計算基盤やネットワーク構成なしで、クラウド上の実行環境を利用できる点、各種AI機能をREST APIとして提供することで、アプリケーションへの組み込みやプロトタイプ開発が容易になる点、RAG機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応できる点が特徴として挙げられている。

　また、同社が運営する国内のデータセンターで構成されたインフラ上で、基盤モデルを選択可能なため、機密情報や個人情報を国内で取り扱うことができることも特徴としている。これにより、公共分野や高いセキュリティ要件が求められる業種でも安心して導入できるという。

提供仕様
サービス類型	基盤モデル
Chat completions	gpt-oss-120b
	llm-jp-3.1-8x13b-instruct4
	Qwen3-Coder-30B-A3B-Instruct
	Qwen3-Coder-480B-A35B-Instruct-FP8
Audio Transcription	whisper-large-v3-turbo
Embeddings	multilingual-e5-large
ドキュメント（RAG）	―

料金プランは上限あり／なしの2通り

　料金プランは「基盤モデル無償プラン」と「従量課金プラン」の2種類が提供される。両プラン共通の無償利用枠を超過した場合、「基盤モデル無償プラン」ではAPIリクエストに対してレート制御がかかり、「従量課金プラン」では超過利用分への料金が発生する。

　なお、「基盤モデル無償プラン」は申し込み数に上限があり、上限に達した場合は新規の申し込み受付が停止される。

「基盤モデル無償プラン」および「従量課金プラン」共通の無償利用枠
サービス類型	1カ月あたりの無償枠数
Chat completions	3000回
Audio Transcription	50回
Embeddings	10000回
ドキュメント（RAG）	―

従量課金プラン
サービス類型	基盤モデル	無償利用枠の超過料金
Chat completions	gpt-oss-120b	Input：0.15円／10000トークン
	gpt-oss-120b	Output：0.75円／10000トークン
	llm-jp-3.1-8x13b-instruct4	Input：0.15円／10000トークン
	llm-jp-3.1-8x13b-instruct4	Output：0.75円／10000トークン
	Qwen3-Coder-30B-A3B-Instruct	Input：0.15円／10000トークン
	Qwen3-Coder-30B-A3B-Instruct	Output：0.75円／10000トークン
	Qwen3-Coder-480B-A35B-Instruct-FP8	Input：0.3円／10000トークン
	Qwen3-Coder-480B-A35B-Instruct-FP8	Output：2.5円／10000トークン
Audio Transcription	whisper-large-v3-turbo	0.5円／60秒
Embeddings	multilingual-e5-large	Input：2円／10000トークン
Embeddings	multilingual-e5-large	Output：無料
ドキュメント（RAG）	―	3円／100チャンク