清水理史の「イニシャルB」

EdgeのAI機能「Bingチャット」が進化、自分で読まなくても英文PDFの内容が分かるぞ！

情報の調査・探索が圧倒的にラクになる「使わないと損」な機能

清水理史

2023年7月31日 06:00

Bingチャットを利用すると、PDFに対して質問が可能。英語でも翻訳せずに、日本語で内容の問い合わせができる

　Edgeに搭載されているAI機能「Bingチャット」が着々と進化している。なかでも便利なのが、PDFに対してAIを使ったチャットができる点だ。これにより、英語のPDFなども翻訳せずに、内容だけかいつまんで説明してもらうことができる。ざっくり概要を掴んだり、ピンポイントで情報を把握したりしたいときに便利だ。

着々と使いやすく進化しているBingチャット

　Edgeのサイドバーで簡単に呼び出すことができ、すぐに使える身近な存在のわりに、ChatGPTと比べて話題になりにくい「Bingチャット」。そんなBingチャットの機能が着々と強化され、さらに高度な使い方ができるようになった。

　一般公開されたタイミングでは近日公開予定となっていた、PDF対応のいくつかの機能が、2023年5月に使えるようになった。6月には、Bingのウェブサイト側のチャットで音声入力と解答が可能になり、Edgeで表示中のページの製品に対して「この製品の評判は？」などでネット上のレビューをまとめられる機能なども追加された（筆者の環境ではまだ利用不可）。

　また、詳しくは後述するが、7月18日にはビジュアル検索にも対応し、入力した画像について質問できるようにもなった。

着々と新機能が追加されている

▼5月の新機能発表
Bing と Edge による AI イノベーションの新たな波を発表

▼6月の新機能発表
New AI-powered Microsoft Shopping tools arrive on the new Bing and Edge

▼7月の新機能発表
Furthering our AI ambitions – Announcing Bing Chat Enterprise and Microsoft 365 Copilot pricing

　こうした機能の中でも、特に便利なのがPDF対応だ。Bingチャットは、通常モードでは、入力した質問に対して、学習済みの知識やウェブ検索で入手した知識を使って回答を生成する。

　これに対して、PDF機能では、表示中のPDFファイルの内容だけを知識として使った回答をしてくれるようになる。これにより、PDFの契約書、ライセンス契約書、説明書、論文などについて自然言語で質問することが可能になり、個別の内容を理解しやすくなった。

英語もOK、極端な話「読まなくてもOK」だ

　では、実際の使い方を見てみよう。

　まずは前提条件として「ページコンテキスト」をオンにしておく。Bingチャットの右上のメニューボタンから「通知とアプリの設定」をクリックし、「ページコンテキスト」の項目をオンにすることで、Edgeで表示中のコンテンツを利用可能になる。

「ページコンテキスト」をオンにしておく

　実際に利用するもっとも簡単な方法は、要約の作成だ。PDFファイルをEdgeで表示し、Bingチャットのウィンドウを開くと、「ページの要点を生成」と表示されるので、これをクリックするだけでいい。

　ポイントとしては、「会話のスタイルを選択」で「より厳密に」を選択しておくことだ。対話型AIは、自然な会話に見えるようにするために、内部的にゆらぎを持たせるパラメーターがいくつか存在するが、それを低くすることで、必ず最も確率の高い回答が選択されるようになる（回答が基本的に毎回同じになる）。

　ビジネスシーンで使う場合は、「より厳密に」にしておかないと、回答に「ウソ」が出現する確率が高くなってしまう。

「より厳密に」にしておく

　話を戻そう。今回は、現在の大規模言語モデル発展の礎になったと言ってもいいTransformerについて述べられた有名な論文「Attention Is All You Need」を読んでみる。

▼Attention Is All You Need
Attention Is All You Need

　もちろん英語で書かれているが、日本語で回答してくれる。実際に出力された要約は以下のようになった。

この文書は、Transformerと呼ばれる、再帰層を使用せずに完全に注意に基づく最初のシーケンス変換モデルについて説明しています。このモデルは、再帰型または畳み込み型の層を使用するアーキテクチャよりも高速にトレーニングできます。 WMT 2014英語-ドイツ語およびWMT 2014英語-フランス語翻訳タスクでは、新しい最高のBLEUスコアを達成しました。さらに、このモデルは他のタスクにも適用できます。

英語のPDFについて要約してくれる

　これまで、こうした英語のPDFは、Google翻訳やDeepL翻訳などを使って翻訳し、日本語で内容を読み込む必要があったが、英語表示のまま、直接、内容を把握することができる。

　原典をきちんと読まないとは何事か！　と怒られそうだが、自分が求めている情報を探す段階では、とりあえず目の前の資料に目的の情報が書かれているのかを、ざっくり知る必要がある。Bingチャットを利用することで、その時間と手間が省けるのは大きなメリットだ。

ローカルPDFを使って明示的に文脈を指定する

　ただ、上記の方法は、困ったことに、しばらく会話を重ねていると、いつの間にかBingチャット内部の知識、もしくはウェブ検索結果を知識にした回答へと切り替わってしまう。会話の中に「代わりにこのページから回答する」という候補が現れたら、要注意で、それは直前の回答がPDFソースになっていない可能性が高い。

「代わりにこのページから回答する」と表示されたら要注意。事前知識かウェブ上のデータをもとに答えている可能性が高い

　また、EdgeにエクスプローラーからPDFファイルをドラッグすることで、ネット上に公開されているファイルだけでなく、PCにローカル保存されたPDFファイルでも会話をすることができるが、この場合も、単に質問するだけでは、ウェブ検索となってしまうことが多い。

ファイルをドラッグすることでPDFについて問い合わせもできるが、プロンプトを工夫しないとウェブから回答してしまう

　このため、知識のベースとして必ずPDFをもとにしてほしいときは、以下のようにプロンプトに一文を追加してから、質問すると確実だ。

「このページの文脈だけで回答してください：〇〇について教えて」

　このように質問することで、Bingチャットの言語モデルが学習済みの事前知識やウェブ上の情報ではなく、必ず現在表示しているページの情報をもとに回答してくれるようになる。

「このページの文脈だけで回答してください」とすることで、表示中のページの情報から回答させることができる

　例としていくつか会話を掲載する。かなり詳細な情報を得ることが可能で、表に情報をまとめたり、図版について説明してもらったりすることもできる。

通常の質問。従来の再帰型ニューラルネットワーク（RNN）を使わないメリットを聞いてみる

翻訳タスク。Abstructを指定して翻訳してもらった

表にまとめる。従来の方式とTransformerの違いをまとめてもらった

画像の説明。Transformerのしくみを示すFigure 1を指定して、その内容を丁寧に説明してもらった

今後の課題がどのように述べられているのかを回答してもらった

　モデルの学習済み知識やウェブ上の情報は、いわば汎用的な情報となるが、このように活用することで、特定分野の論文、社内の情報、個別の契約情報など、特定の情報についてAIに質問することが可能になる。

　ChatGPTではプラグインを利用したり、API経由でLangChainを使って作り込んだりする必要があるが、Bingチャットであれば、Edgeでソースを表示しておくだけでいい。この手軽さは秀逸だ。

画像を貼り付けて説明してもらうこともできる

　前述したように、7月のアップデートで、テキストだけでなく画像をベースにした質問が可能になっていたので、それも試してみた。

　Bingチャットの入力欄の右側にある「画像を追加します」ボタンをクリックし、画像ファイルを指定。「この画像について説明して」と入力すると、説明が表示される。この機能もなかなか便利だ。

Transformerの画像をPNG形式で切り抜き、そのファイルのみを与えて質問してみた。回答はウェブから検索される

　ただし、こちらは、ウェブ上から情報を取得しているため、ある程度有名な画像、つまりウェブ上に説明がある画像でないと意味まで答えることはできない。例えば、以下のように筆者が自分の原稿用に作成した図版を与えても、「グリッドがある」「12bit1シンボル」と記載されているなど、図版の構成要素を答えるだけで（いや、それだけでも十分スゴイが……）、それが何を意味しているのかまでは回答できない。

　論文などで多く引用されている有名な図版などは、こうした調べ方をすると理解しやすくなるだろう。

筆者が作成した図版だと、ウェブから情報が得られないため、図版の意味ではなく、形や文字などを説明するにとどまる

使わないと損

　以上、Bingチャットの活用例として、PDF機能を紹介した。筆者は、最近、AI関する記事を多く執筆するようになってきたが、その場合、どうしても英語の論文に当たらざるを得ず、その読み込みに苦労していたのだが、この機能がかなり役立っている。

　もちろん、日本語の契約書を読み込んで、契約条項を精査したり、疑問点を質問したりするのもよさそうだし、ウェブサービスのライセンス条項を読み込んで端的に「商用利用可能かどうか」を質問したりするのもいい。

　真正面から取り組む余裕がなく、とりあえず概要や答えを知りたいというケースでは、これほど役に立つツールはない。ぜひ活用してみるといいだろう。

清水理史

製品レビューなど幅広く執筆しているが、実際に大手企業でネットワーク管理者をしていたこともあり、Windowsのネットワーク全般が得意ジャンル。最新刊「できるWindows 11」ほか多数の著書がある。