rinnaのマルチモーダルモデル。画像とテキストという複数の情報を入力し、その結果としてテキストを返す。複数モデルを使うためVRAMが豊富に必要

rinnaのマルチモーダルモデル。画像とテキストという複数の情報を入力し、その結果としてテキストを返す。複数モデルを使うためVRAMが豊富に必要