急遽テレワーク導入!の顛末記
「CopilotやLeonardo.AIなど、生成AIに似顔絵イラストを描いてもらった」――急遽テレワークを導入した中小企業の顛末記(178)
写真をもとにイラストの生成を依頼、商用利用はできるのか?
2024年3月11日 07:00
先週はコンテンツ生成プラットフォーム「リートン」を使って、AIに文字校正をしてもらった。以前にも「ChatGPT」や「Whisper」を業務に使ったことがあったが、作業効率をUPさせる上で頼もしい味方になってくれそうだ。
……この記事を書いている時点で、新型コロナが5類に移行されて305日が過ぎた。
私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は「リートン」などの生成AIについて、画像生成機能をどこまで仕事に使えそうか試してみた。
3月4日(月):プロンプトだけで似顔絵イラストを描かせるのは難しい……
先日はコンテンツ生成プラットフォーム「リートン」を原稿の校正に利用したが、同サービスで利用している言語モデル「GPT-4」は、画像生成にも対応している。ある案件で著者のプロフィールイラストが必要になったので、これを「リートン」に作ってもらったところ、以下のような画像が生成された。
プロンプトでは「1人」「メガネ着用」と依頼したのだが、どのイラストもメガネをかけておらず、4枚のうち1枚は「1人」というリクエストも反映されていない。そこで、「メガネをかけた男性のイラストにしてもらえますか?」と、再度メッセージを送ってみたのだが、修正したイラストは生成されなかった。
その後、何度かプロンプトや言語モデルを変えて生成してみたが、なかなか思うような画像は作れなかった。やはり、「似顔絵イラスト」のように人物や風景などを忠実に再現した画像を作るのであれば、i2i機能(指定の画像を参考に画像を作成する機能)に対応した画像生成AIサービスを利用した方が良さそうだ。
3月5日(火):画像生成は「Microsoft Copilot」でいいかもしれない……が
i2i機能で画像を生成できるAIといえば、最近話題の「Microsoft Copilot」が候補になるだろう。このサービスでは画像を登録することで、その内容について質問したり、参考にした画像を生成させたりすることができる。
そこで、人物写真を登録した上で、先ほどと同じようなプロンプトで画像生成を依頼したところ、今度はきちんと眼鏡をかけた人物イラストが生成された。画像生成モデルに「DALL·E 3」を使っているだけあって、そのクオリティもかなり高い。これなら、仕事用としても十分に使えそうだ。
ただ、マイクロソフトでは生成物の著作権は主張していないが、無料版の「Microsoft Copilot」は、生成物の商用利用が禁じられている(※編集部注:有料版であっても必ずしも商用利用できるわけではない)。このため、生成物を商用利用したいなら、他のサービスを探す必要がありそうだ。
3月6日(水):画像に特化した生成AIサービスでも似顔絵を作ってみた
ここまでは「ChatGPT」のような、いわゆるテキスト生成系のAIを使ってきたが、生成AIにおいては画像生成に特化したサービスも存在する。その中でも、i2i機能に対応しており、毎日一定の枚数を無料で生成できるものを探したところ、以下の2つのサービスが使えそうだ。
これらのサービスは公式サイトで「生成物の商用利用が可能」なことを明記している。 最近では「AI似顔絵」や「AIアバター」などと呼ばれるアプリを見かけるようになったが、商用利用できるか明記していないものが多いので注意したい。
●Leonardo.AI
生成可能枚数:150枚/日~
●SeaArt AI
生成可能枚数:150枚/日~
「Leonardo.AI」は2022年にリリースされた、画像生成の分野では定評のあるサービス。1日あたり150トークンが配布され、解像度や使用するモデルにもよるが、画像1枚あたり1トークンから生成できる。モデルは公式が提供しているだけでなく、「Community Models」として登録されたものも利用でき、幅広いタッチの画風に対応。一部機能は有料となっているが、無料版でも十分なクオリティの画像を生成できる。
一方、2023年にリリースされた「SeaArt AI」は、画像生成AIを代表する存在の1つである「Stable Diffusion」をもとに開発されたもの。「Stable Diffusion」は、その導入・初期設定にある程度の知識と手間が必要だが、その基本機能がプロンプトを入力するだけで簡単に利用できるサービスとなっている。「Stable Diffusion」で利用されているさまざまなモデルやLoRA(追加学習モデル)を、プルダウンメニューから選ぶだけで利用できるのも大きな魅力だ。こちらも1日に150スタミナが配布され、通常画質であれば1画像1スタミナで生成できる。
まずは、「Leonardo.AI」で公式モデルの「Leonardo Diffusion XL」を使い、日本語のプロンプトで生成を行ったところ、元画像やプロンプトをきちんと反映したイラストが作成された。ちなみに、このモデルは512×1024までの解像度であれば2トークン、1024×768までの解像度では3トークンで生成できるので、1日あたり最大で75枚のイラストが作成できることになる。細かいところを修正するために、プロンプトを調整したとしても、必要な画像を無料の範囲内で生成できそうだ。
続いて、「SeaArt AI」についてだが、こちらも日本語のプロンプトでの画像生成が可能だった。「Stable diffusion」といえば、プロンプトは英語で……というイメージがあるが、これならいちいち翻訳ツールなどを使わなくても、手軽に画像が生成できるだろう。画像モードは3段階用意されており、「通常」(342×512)は1スタミナ、「HD」は(513×768)2スタミナ、「超HD」(684×1024)は4スタミナの消費で画像を生成できる。
ただ、モデルやプロンプトをいろいろ変えて試してみたのだが、i2i機能で写真をもとにイラストを作成すると、かなり写実的……というか、ほとんど写真そのままのイラストが作成された。
「Stable diffusion」では「Denoising strength」というパラメーターで、元画像をどこまで反映するか選べるのだが、「SeaArt AI」にはその設定が用意されていない。“元画像の細部をプロンプトに従って補正、もしくはスケールアップさせる”といった使い方には向いていそうだが、これで似顔絵イラストを作るのは難しいかもしれない。
3月7日(木):「Stable diffusion」の生成画像と比べてみると…
昨日は「Stable diffusion」がベースとなった「SeaArt AI」で画像を生成してみたが、実際に「Stable diffusion」を使った場合とでは、生成画像の仕上がりが変わってくるのかが気になるところ。
そこで、筆者のローカル環境で「Stable diffusion」を使い、「SeaArt AI」と同じモデルで生成したところ、作成されたのが以下のイラストだ。
……その背景、どこから出てきたの? どうやら、後ろに写っていた木の扉を元に、植物が勝手に合成されてしまったらしい。プロンプトに「White background」を追記してもダメだったので、背景除去ツールを使って人物だけを切り取った後、再び「Stable diffusion」で生成を行ったところ、今度は無事に写真を元にしたイラストが作成された。昨日、「SeaArt AI」で生成した画像と比べると、よりイラストっぽい仕上がりになっているので、似顔絵イラストとして使うならこちらだろう。
なお、「Stable diffusion」で使用するモデルについては、「Civitai」や「Hugging Face」といった配布サイト上で商用利用が可能かどうかを確認できる。モデルを入手する際は、ライセンスを確認した上でダウンロードするようにしたい。
ただ、ここで注意したいのは、AIモデルの学習データが著作権に違反していないか、もしくは著作権者に許可を取っているかどうかは、利用者からは分からないサービスが多いということだ。サービス側が「商用利用は可能」としていても、学習データが著作権に違反しているようなら、その生成物をビジネスに利用するにはリスクがあるだろう。
ちなみに、冒頭で「Microsoft Copilot」について紹介したが、マイクロソフトが昨年発表した「Copilot Copyright Commitment」では、法人向けの商用Copilotサービスを使用した顧客が著作権侵害で訴えられた場合、Copilotが搭載するコンテンツフィルタなどの各種保護システムを正しく利用していれば、訴訟で発生した不利な判決や和解金をMicrosoftが補償するとしている。法人であれば、こうしたサービスを活用するのがより確実だろう。
画像生成AIは1年半ぐらい前にもSNSアイコンの作成に利用したが、その時と比べると操作性や生成画像のクオリティは大幅に進化した。ほかにも、プレゼン資料に画像を掲載する時などは、フリー素材で探すよりも手早く用意できそうなので、これからも最新事情を引き続きウォッチしていきたい。
とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。