ニュース
「さくらのAI Engine」提供開始、複数の基盤モデルに対応した生成AI向け推論API基盤
2025年9月25日 14:30
さくらインターネット株式会社は9月25日、生成AI向け推論API基盤「さくらのAI Engine」の一般提供を開始した。「さくらのクラウド」のコントロールパネルから利用可能で、大規模言語モデル(LLM)をはじめとする基盤モデルを、API経由でアプリケーションへ組み込み可能になる。
提供開始に合わせて、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」の名称が、生成AI向けビジネス基盤「さくらのAI」へ変更される。
「さくらのAI Engine」は、同社の生成AI向けクラウドサービス「高火力」を基盤とし、下表に示す提供仕様のように、APIを通じて国内外の複数の基盤モデルやRAG(自社に蓄積された文書や外部知識を検索し情報を抽出したうえで、それに基づいてLLMに回答を生成させる技術)の機能を提供する。
計算基盤やネットワーク構成なしで、クラウド上の実行環境を利用できる点、各種AI機能をREST APIとして提供することで、アプリケーションへの組み込みやプロトタイプ開発が容易になる点、RAG機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応できる点が特徴として挙げられている。
また、同社が運営する国内のデータセンターで構成されたインフラ上で、基盤モデルを選択可能なため、機密情報や個人情報を国内で取り扱うことができることも特徴としている。これにより、公共分野や高いセキュリティ要件が求められる業種でも安心して導入できるという。
サービス類型 | 基盤モデル |
Chat completions | gpt-oss-120b |
llm-jp-3.1-8x13b-instruct4 | |
Qwen3-Coder-30B-A3B-Instruct | |
Qwen3-Coder-480B-A35B-Instruct-FP8 | |
Audio Transcription | whisper-large-v3-turbo |
Embeddings | multilingual-e5-large |
ドキュメント(RAG) | ― |
料金プランは上限あり/なしの2通り
料金プランは「基盤モデル無償プラン」と「従量課金プラン」の2種類が提供される。両プラン共通の無償利用枠を超過した場合、「基盤モデル無償プラン」ではAPIリクエストに対してレート制御がかかり、「従量課金プラン」では超過利用分への料金が発生する。
なお、「基盤モデル無償プラン」は申し込み数に上限があり、上限に達した場合は新規の申し込み受付が停止される。
サービス類型 | 1カ月あたりの無償枠数 |
Chat completions | 3000回 |
Audio Transcription | 50回 |
Embeddings | 10000回 |
ドキュメント(RAG) | ― |
サービス類型 | 基盤モデル | 無償利用枠の超過料金 |
Chat completions | gpt-oss-120b | Input:0.15円/10000トークン |
Output:0.75円/10000トークン | ||
llm-jp-3.1-8x13b-instruct4 | Input:0.15円/10000トークン | |
Output:0.75円/10000トークン | ||
Qwen3-Coder-30B-A3B-Instruct | Input:0.15円/10000トークン | |
Output:0.75円/10000トークン | ||
Qwen3-Coder-480B-A35B-Instruct-FP8 | Input:0.3円/10000トークン | |
Output:2.5円/10000トークン | ||
Audio Transcription | whisper-large-v3-turbo | 0.5円/60秒 |
Embeddings | multilingual-e5-large | Input:2円/10000トークン |
Output:無料 | ||
ドキュメント(RAG) | ― | 3円/100チャンク |